ロンドンベースの AI ラボが開発した対話型動画モデル「Odyssey-2」が、動画生成技術に新たな転機をもたらしています。この革新的なモデルは、テキスト入力に対してリアルタイムで動画を生成し、ユーザーが自然言語で動画の内容を操作できる技術を実現しました。
Odyssey-2 の最大の特徴は、その圧倒的な処理速度にあります。従来の双方向動画モデルが 5 秒の映像生成に 1~2 分を要するのに対し、Odyssey-2 は 50 ミリ秒ごとに新しいフレームを生成し、20 フレーム/秒でストリーミングを開始します。ユーザーのアクションが動画に反映されるまでの時間はわずか 40 ミリ秒程度で、ほぼ瞬時の体験を提供します。
技術的には、過去のフレームとユーザーアクションのみから各フレームを生成する因果的・オートリグレッシブモデルを採用しています。これにより 5 分以上のコヒーレントな動画ストリームを出力でき、米国と EU の Nvidia H100 GPU クラスターを使用して最大 30 フレーム/秒でのストリーミングが可能です。
同社は 2700 万ドル(約 41 億円)の資金調達を完了しており、GV(Google Ventures)主導のシードラウンドで 900 万ドル(約 14 億円)、EQT Ventures 主導のシリーズ A で 1800 万ドル(約 27 億円)を調達しています。Pixar 共同創設者の Ed Catmull が取締役会に参加するなど、業界の注目を集めています。
運用コストは 1 ユーザー時間あたり 1~2 ドル(約 150~300 円)と比較的高額ですが、モデル最適化により急速にコストが低下中とのことです。現在は生成環境のぼやけや空間一貫性の課題がありますが、同社は「現在動画であるもの全てが時間をかけて対話型動画に進化する」と予測し、エンターテイメント、教育、広告などの分野での活用を見込んでいます。

