Google DeepMind 、テキストから 3D 世界を生成する「 Genie 3 」を発表

投稿者:

Google DeepMind は 2025 年 8 月 6 日、テキストを入力するだけでリアルタイムに探索できる 3D 環境を自動生成する新技術「 Genie 3 」を発表しました。これは従来の画像や動画生成 AI とは大きく異なり、ユーザーがキーボードで仮想空間を自由に歩き回れる、まるでゲームのような「体験型シミュレーション」を実現しています。

4 つの機能

1. リアルタイムで探索できる 3D 世界の生成: 「雨季の熱帯雨林」や「ヴェネツィアのカーニバル」といった文章を入力するだけで、自然・都市・空想・歴史など様々な設定の 3D 環境が瞬時に作られます。生成された世界は 720p 解像度、24FPS で滑らかに動作し、ユーザーは思い通りの方向に探索できます。

2. 世界の「記憶」機能: Genie 3 は一度作られた物や環境の状態を 1 分以上覚えていられます。ユーザーが別の場所に行って戻ってきても、さっき置いた物や描いた絵がそのまま残っているという、これまでにない一貫性を保てます。

3. リアルタイムでの変更: 探索中に「鹿の群れを出現させる」「天気を雨に変える」といった新しい指示を出すことで、その場で世界を変化させられる「プロンプタブル・ワールド・イベント」機能があります。

4. 自然な物理法則の再現: 特別な物理エンジンを使わずに、学習データから物理の法則を覚えることで、水の流れ、光の当たり方、風で揺れる木、重力などの自然現象をリアルに再現します。

AGI 実現に向けた重要な技術

Google は Genie 3 を、汎用 AI やロボットが複雑な環境で様々なタスクを覚えるための強力な「練習場」として活用したいと考えています。例えば、仮想の倉庫で「指示通りに目的地まで安全に移動する」といった訓練ができるため、汎用人工知能( AGI )の実現に向けた重要な技術になると期待されています。

同社が開発している SIMA エージェント(ゲーム内で人間の指示を理解して行動できる AI )のような AI を、無数の異なるシミュレーション環境で訓練することで、現実世界での高コストで危険な訓練を置き換えることができます。研究者の Jack Parker-Holder 氏は、 Genie 3 によって AI エージェントが「 Move 37 」のような革新的な行動(囲碁 AI の AlphaGo が世界を驚かせた伝説の一手)を発見する可能性があると述べています。

幅広い分野での活用に期待

ゲーム開発、教育、訓練、ロボット工学、災害シナリオの模擬実験、創作のプロトタイプ作りなど、様々な分野での応用が見込まれています。ゲーム制作者やクリエイターは、従来のゲームエンジンや 3D モデリングソフトを使わずに、アイデアをすぐに形にできるようになります。

また、歴史上の場所を再現したり、教育用のシナリオを作ったりして、没入感のある体験を提供することで、教育やエンターテインメントの分野でも役立ちそうです。

まだ残る課題

ただし、現時点では世界の「記憶」は 1 〜数分程度、複数の AI エージェントが同時に動く機能は限定的、細かな文字の表示や地理的な正確性にはまだ課題があります。また、一般向けの公開はまだで、現在は一部の研究者やクリエイターだけが試せる状態です。

Genie 3 は「ワールドモデル」と呼ばれる技術分野で、 Meta の V-JEPA 2 などの他社技術と競っており、 AGI やロボット、次世代ゲーム・仮想現実・教育といった幅広い未来技術の基盤になると考えられています。生成 AI が「映像を作る」段階から「体験できる物理世界そのものを作る」段階へと進化する、転換点として業界の注目を集めています。