Tencent 、写真 1 枚から 3D 空間を生成する AI 「 HunyuanWorld-Voyager 」を公開

中国 Tencent が 2025 年 9 月 2 日にオープンソースで公開した「 HunyuanWorld-Voyager 」は、写真 1 枚から探検可能な 3D 環境を生成する次世代の AI ワールドモデルです。従来のビデオ生成 AI とは一線を画し、写真とカメラの移動指示だけで、まるで実際にその場を歩き回れるような 3D 映像を作り出すことができます。

このモデルの最大の特徴は、RGB 映像と奥行き情報を同時に生成できる点にあります。一般的な AI が平面的な動画を作るのに対し、HunyuanWorld-Voyager は空間の前後関係や距離感を正確に把握した映像を生み出します。その結果、生成された映像から 3D データを抽出し、VR やゲーム制作に直接活用することも可能になります。

技術面では、ディフュージョン手法をベースに開発されており、長距離にわたって空間の一貫性を保ちながら 3D 空間を探索できます。「グローバルキャッシュ」という仕組みにより、前のフレームで生成した 3D 点群データを再利用し、カメラが長距離移動しても映像が破綻しないよう工夫されています。学習には Unreal Engine などで作られた 10 万本以上のシミュレーション映像を使用し、効率的なトレーニングを実現しています。

使い方は非常にシンプルです。写真 1 枚とカメラの移動経路を指定するだけで、約 2 秒間（ 49 フレーム）の高品質な 3D 映像が生成されます。複数の映像を繋ぎ合わせれば、より長い「仮想世界の散歩動画」も作成できます。生成された映像の奥行き情報は 3D 点群データとしてエクスポートでき、3D ゲームや VR コンテンツ、建築ビジュアライゼーションなど幅広い分野での応用が期待されています。

性能評価では、Stanford 大学の WorldScore ベンチマークで 77.62 点を獲得し、競合する WonderWorld （ 72.69 点）や CogVideoX-I2V （ 62.15 点）を上回りました。特にカメラ制御の精度（ 85.95 点）やスタイルの一貫性（ 84.89 点）で高い評価を得ています。

モデルは GitHub と Hugging Face でオープンソース公開されており、リリース直後に Hugging Face のトレンド 1 位を獲得するなど大きな話題となりました。Gradio を使ったデモも用意されており、実際に試すことができます。

ただし、利用にはいくつかの制約があります。まず、最低でも 60GB 以上の GPU メモリが必要で、推奨は 80GB となっており、一般的なパソコンでの動作は困難です。また、生成される映像は完全な 3D モデルではなく、空間整合性を持つ 2D フレームの集合体であり、360° 全方向の探索や極端に長い移動では品質が低下する場合があります。

ライセンス面では、EU ・UK ・韓国での使用が禁止されているほか、月間アクティブユーザーが 100 万人を超える商用サービスでの利用には別途許可が必要です。

それでも、「写真 1 枚から歩き回れる 3D 世界を生成する」という画期的な技術として、ゲーム開発者や映像クリエイター、VR 業界から熱い注目を集めています。