AI スタートアップの Odyssey が、新たな 2 つのワールドモデル「 Starchild-1 」と「 Agora-1 」を相次いで発表しました。いずれも既存技術の限界を大きく超えるものとして注目を集めています。
同社は自動運転車業界出身の Oliver Cameron 氏( CEO )と Jeff Hawke 氏( CTO )が 2023 年に共同創業しました。本社はカリフォルニア州メンロパークで、累計調達額は 2,700 万ドル(約 40.5 億円)。直近のシリーズ A は 2026 年 2 月 17 日に実施され、 NVIDIA のベンチャー部門「 NVentures 」や Samsung Next が参画しています。 Google の元 AI 研究トップである Jeff Dean 氏や、 Pixar の共同創業者 Ed Catmull 氏も名を連ねており、業界内での注目度の高さがうかがえます。
ワールドモデルとは、映像データをもとに現実世界の物理的な動きや構造を学習し、その世界をリアルタイムでシミュレートできる AI モデルです。テキストを扱う言語モデルとは異なり、目に見える世界そのものを仮想空間内で再現する点が大きな特徴です。
Starchild-1 は、音声と映像を同時にリアルタイムで生成できるモデルです。従来の映像生成 AI は、あらかじめ決まった長さの動画を出力するにとどまっていました。一方、 Starchild-1 はユーザーの入力に応じて映像と音声を継続的に生成し続けることができます。音声と映像では処理する情報の性質が根本的に異なるため、長時間の生成では片方のエラーがもう片方に影響しやすいという技術的な難しさがありましたが、同社は専用の学習・推論の仕組みを新たに開発することでこの問題に対処しました。
Agora-1 は、複数の参加者が同じ AI 生成の世界に同時に入り込めるモデルです。最大 4 人がリアルタイムで同一の生成空間を共有でき、デモンストレーションには Nintendo 64 の名作ゲーム「 GoldenEye 」が使われました。技術的には、仮想世界の状態を管理するモデルと、各プレイヤーの視点映像を描画するモデルを分離して設計することで、一貫性とリアルタイム処理を両立させています。
同社はワールドモデル分野における「 (2022年の)ChatGPTの衝撃」の再現を目指しており、ゲームにとどまらず、ロボティクスや防衛、教育など幅広い領域への展開を見据えています。
>筆者の視点:
「ワールドモデル」が今これほど注目される背景には、言語モデルだけでは解決できない課題が顕在化してきたことがあります。言語モデルはテキストの生成や理解において高い能力を発揮しますが、物理的な空間の中で「何かを動かす」「状況の変化に即座に対応する」といった能力は本質的に苦手です。
日本でも今年の頭に「フィジカルAI」がにわかに注目を集めましたが、AI がパソコンの中から飛び出して現実世界の中で実用的に動く(例えばロボットに複雑な作業を学習させたり、自動運転車に予測不能な道路環境を経験させたりする)ためには、現実に近い世界を仮想空間内にシミュレートできる環境が不可欠です。ワールドモデルはその基盤となる技術であり、特に「リアルタイム性」と「複数エージェントへの対応」という 2 点は、実用化に向けた重要な条件となっていました。
今回の発表は、その条件を初めて満たしたという点で、単なる研究成果にとどまらない意味を持っています。
