Google DeepMindが、2024年12月4日に1枚の画像から、ゲームの世界のように動き回れる3D空間を作り出す3D空間生成AI「Genie 2」を発表しました。
Genie 2は、大規模な動画データセットから学習したAIで、最大1分間の現実世界のように自然な3D空間を作り出すことができます。
このAIの特徴は、いろいろな視点から3D空間を見ることができる点です。例えば、ゲームのように自分の目線で見ているような一人称視点や、キャラクターを少し離れた所から見ているような三人称視点、斜め上から見下ろすアイソメトリックビューなど、自由に視点を変えることができます。
また、一度見た場所を覚えていて、再びそこに戻った時に、以前と同じように表示してくれる機能もあります。さらに、物の重さや水の流れ、煙の動きなど物理法則に従った動きを自然に表現したり、キャラクターの動きや物とのインタラクションも可能です。
Genie 2は、AIの学習やゲーム開発など、様々な分野で役立つと考えられています。例えば、ゲーム世界で自律的に行動するDeepMindのAIエージェント「SIMA」と組み合わせることで、AIモデルのトレーニングに活用したり、ゲーム開発者がゲームの試作品を簡単に作れるようにすることなどが期待されています。特にゲーム開発では、開発者が簡単な指示を出すだけで複雑な3D空間をすぐに作れるようになるため、作業効率が大幅に向上する可能性があります。
DeepMindでは、以前より、ヒューマノイドロボット向けのAIモデルの開発に先駆け、ゲーム空間内で自律的に判断し行動できるモデルのトレーニングを進めてきました。今回発表されたGenie 2はまだ開発初期の段階にあり、さらなる改良が求められるものの、さまざまな空間を生成し、その中で自然に行動するAIの開発を目指すトレーニングの一環として、重要な一歩と位置づけられます。
現在主流の基盤モデル周りではあまりこれといった発表が少ないGoogle DeepMindですが、競合他社とは少し変わったアプローチで着実にAI技術の発展を進めています。