Meta の FAIR(Fundamental AI Research)チームが、コンピュータビジョン、3D 理解、協調的 AI 能力の分野における 5 つの新しい AI 研究プロジェクトをオープンソースで発表しました。これらは知覚と推論に焦点を当て、より人間に近い AI の実現を目指す取り組みです。
1. Perception Encoder(パーセプションエンコーダー)
画像や動画を高精度で認識できる大規模なビジョンエンコーダーです。AI の「目」の役割を果たし、既存のモデルを上回る性能を示しています。砂に隠れたエイや背景の小鳥、夜間の動物撮影など難しい場面でも高い識別能力を発揮します。言語モデルと組み合わせれば、画像や動画に関する質問応答やキャプション生成の質も向上します。
2. Perception Language Model(PLM)
再現性の高いビジョン・言語モデルです。大規模な合成データと 250 万件以上の人手でラベル付けされた動画データで学習されています。1 億から 8 億のパラメータ規模のバリエーションがあり、学術研究にも使いやすい設計になっています。また「PLM-VideoBench」という新しいベンチマークも公開され、細かな動きの理解や時間・空間的な推論能力の測定が可能になりました。
3. Meta Locate 3D(3D空間把握)
自然な言葉で指示された物体を 3D 空間で特定できるモデルです。例えば「テーブルの上の赤いカップを取って」という指示に対し、3D データから正確に対象物を見つけ出せます。空間的な関係や文脈も理解し、物体の正確な位置を把握する能力を持っています。
4. Collaborative Reasoner(協調的推論エージェント)
複数の AI が協力して問題解決する能力を高めるためのフレームワークです。数学や科学、社会的な推論など様々な課題に対し、会話を通じて合意形成や協力的な解決策を導き出します。この手法により、単独の AI と比べて最大 29.4%の性能向上が達成されています。
5. 多様性向上・新しい生成モデル
テキストから画像を生成する際の地理的・文化的な偏りを評価する指標や大規模なデータセットが公開されました。これにより、より多様で公平な画像生成が可能になります。また、AI 生成音声を検出する「AudioSeal」や、テキストと画像を同時に処理する「Chameleon」、テキストから音楽を生成する「JASCO」なども含まれています。
これらの研究の意義
これらのプロジェクトは、人間のような知覚・推論能力を持つ AI の実現に向けた重要な一歩です。視覚と言語、空間認識、協調的思考など幅広い分野の基盤技術を大きく前進させています。Meta はすべてのモデルやデータセット、評価基準をオープンソースで公開し、世界中の AI 研究者との協力を促進しています。
この取り組みにより、ロボット工学、自然言語処理、創造的な AI など様々な応用分野の発展が加速すると期待されています。Meta は「グローバルな AI 研究コミュニティと協力し、責任ある形でイノベーションを促進する」という目標に向け、今後も研究成果を広く共有していくとしています。