Meta が「 V-JEPA 2 」発表、AI に物理世界の直感的理解を教える新技術

投稿者:

Meta は 2025 年 6 月 11 日、AI が物理世界を直感的に理解できる革新的なモデル「 V-JEPA 2 」を発表しました。この技術により、ロボットや AI システムが初めて見る環境や物体でも適切に行動できるようになり、AI の実用性が大幅に向上すると期待されています。

V-JEPA 2 の最大の特徴は、人間の子どもが周りを観察して物理法則を覚えるのと同じように、大量の動画を見て世界の仕組みを学習することです。「重いものは落ちる」「ボールは転がる」「コップは割れやすい」といった当たり前の物理的直感を、AI が自分で身につけられるようになったのです。

学習方法も画期的です。まず 100 万時間以上のラベルなし動画と 100 万枚の画像から、物体の動きや相互作用のパターンを自己学習します。その後、わずか 62 時間分のロボット操作データを追加するだけで、実際のロボット制御ができるようになります。従来の AI が大量の手作業によるデータ準備を必要としていたのと比べると、驚くほど効率的です。

実際の実験結果も良好のようです。V-JEPA 2 を搭載したロボットは、これまで見たことのない物体を使ったピック&プレース(物を掴んで指定の場所に置く)作業で、65 ~ 80% の成功率を記録しました。事前に特定の環境で訓練しなくても、その場で状況を理解して適切な行動を取れる「ゼロショット」能力を実現しています。

技術的には「 Joint Embedding Predictive Architecture 」という仕組みを使っています。これは動画から重要な特徴を抽出して、次に何が起こるかを予測する技術です。ピクセル単位の細かい予測ではなく、より抽象的な概念レベルで未来をシミュレーションするため、計算効率が高く、人間の直感的な理解に近いアプローチと言えます。

Meta は物理理解力を測るための新しいベンチマークも 3 つ公開しました。物理的にありえないシナリオを見抜けるかテストする「 IntPhys 2 」、わずかな視覚変化への対応力を測る「 MVPBench 」、因果関係や仮定の推論を評価する「 CausalVQA 」です。

この技術が重要な理由は、従来の AI との根本的な違いにあります。ChatGPT や Gemini といった大規模言語モデルはテキスト処理が中心ですが、V-JEPA 2 は「空間的・物理的な世界の理解」に特化しています。OpenAI の Sora のような動画生成 AI とも異なり、映像の本質的な変化や因果関係を重視し、物理環境において、より人間的な推論ができることを目指しています。

応用分野は多岐にわたります。製造業のロボット、物流倉庫の自動化、家庭用アシスタントロボット、自動運転車、ドローンなど、未知の環境でリアルタイムに判断して行動する必要があるシステムで威力を発揮するでしょう。また、拡張現実( AR )やメタバースでの物理法則に基づいた自然な体験作りにも活用が期待されています。

Meta の主任 AI サイエンティストであるヤン・ルカン氏は、従来の生成 AI アプローチでは真の知能は実現できず、ワールドモデルこそが未来の AI の鍵だと主張しています。V-JEPA 2 はその考えを具現化した重要な一歩と言えます。

同社はこの技術をオープンソースで公開しており、世界中の研究者や開発者が自由に利用できます。これにより、ロボティクスや自律システム分野でのイノベーションが加速すると期待されています。