2026 年 1 月 28 日、イーロン・マスク氏率いる xAI は、テキストや画像から高品質なビデオを生成・編集できる「Grok Imagine API」を正式にリリースしました。同社は直前の 1 月初旬にシリーズ E ラウンドで 200 億ドル(約 3 兆 922 億円)という巨額の資金調達を完了したばかりです。この豊富なリソースを背景に、OpenAI や Google、Runway といった先行企業がひしめく動画生成市場へ攻勢を強めています。
第三者機関の評価において、Grok Imagine は目覚ましい性能を示しました。特に動画編集能力の比較テストでは、Runway の最新モデル「Aleph」に対し 64.1 % の勝率を記録しています。ユーザーの指示に対する忠実性は 57.4 %、映像の一貫性では 63.1 % と、主要な指標で競合を上回る結果となりました。また、xAIが完成させた大規模データセンター「Colossus」による最適化が奏功し、720p 解像度の動画生成における応答速度も業界トップクラスです。
技術面では、単なる生成にとどまらず、実務的な編集ワークフローへの対応が強化されています。最大 15 秒のクリップ生成に加え、動画内の特定オブジェクトの操作、画風の変換、天候や照明の調整まで可能です。さらに、映像と同期した音声をネイティブに生成する機能や、プロンプトによるカメラワーク(ズームやパン)の制御機能も備えており、制作工程の大幅な短縮に寄与します。
特筆すべきは、その攻撃的な価格設定です。xAI は利用料金を 1 分あたり 4.20 ドル(約 649 円)に設定しました。Veo 3.1 は 12 ドル(約 1,800 円)/分、Sora 2 Pro は 30 ドル(約 4,500 円)/分となっており、競合のハイエンドモデルと比較して極めて安価で、市場のコスト構造を一変させる可能性があります。推論効率の向上によって、高性能と低コストの両立を実現した形です。すでに fal.ai や HeyGen などのプラットフォームが導入を決めており、動画生成 AI 市場は画質競争の時代から、実用性と経済性を重視するフェーズへと確実に移行しつつあります。
