Google が Veo 3 で画像から動画生成機能を追加、音声出力とキャラクター一貫性も向上

投稿者:

Google は、 AI 動画生成モデル「 Veo 3 」において、画像から動画を生成する新機能と音声出力機能を正式にローンチしました。これにより、キャラクターの一貫性や映像のリアリティが大幅に向上し、クリエイターにとってより実用的なツールとなっています。

新機能の最大の特徴は、任意の静止画像を最初のフレームとしてアップロードし、その画像を起点に AI が最大 8 秒の動画を生成できることです。これにより、キャラクターやシーンのビジュアルを正確にコントロールでき、物語性や一貫性のある映像制作が可能になりました。例えば、段ボール箱の画像から、ハムスターが料理をするシーンや人が箱に飛び込む動画などを生成できます。

音声出力機能では、動画内にセリフ、環境音、効果音、 BGM などを AI が自動生成し、映像と完全に同期した音声を付加できます。特にキャラクターの口の動きとセリフが自然に合うリップシンク機能は大きな進化といえます。(ただし、音声生成はまだ実験段階で、特定のプロンプトでは期待通りの結果が得られない場合も多々報告されています)

キャラクター一貫性の強化も重要なアップデートです。参照画像と詳細なプロンプトを組み合わせることで、同じキャラクターを複数のシーンや動画にわたって一貫して再現できます。これにより、ストーリー性の高い映像やシリーズものの制作が容易になりました。

利用方法は、 Gemini アプリの「 Videos 」タブから画像をアップロードし、テキストプロンプトでシーンや音声を指定するだけと簡単です。画像とテキストプロンプトを組み合わせることで、より精密なコントロールが可能になります。

ただし、利用には制限があります。この機能は Google AI Pro (月額約 20 ドル・約 2900 円)および Google AI Ultra (月額約 250 ドル・約 3 万 6000 円)の有料サブスクリプション加入者に限定されています。また、いずれの有料会員も 1 日あたり 3 回までと動画生成制限があり、未使用のクレジットは繰り越せません。

安全性への配慮として、生成されたビデオには AI 生成コンテンツであることを示す「 Veo 」透かしと、 Google の SynthID 技術による不可視のデジタル透かしが埋め込まれ、透明性と悪用防止が図られています。

技術的には、ビデオと音声の処理に特化した 2 つのオートエンコーダーを使用し、大量のマルチモーダルデータセットでトレーニングされています。これにより、高品質なビジュアルと音声の統合が実現されています。

市場での反応は好調で、 Veo 3 のリリース後 7 週間で、 Gemini アプリと Flow ツールを通じて 4000 万本以上のビデオが生成されるなど、クリエイターの間で急速に普及しています。現在 154 カ国以上で利用可能で、特にインドや欧州などの市場で多く使用されています。

活用例としては、旅行写真をアップロードしてストーリー仕立ての動画を生成したり、スタートアップのプロモーション映像や AI サービスのデモ動画制作などが想定されています。マーケティング、教育、ソーシャルメディアコンテンツ制作など、さまざまな分野での活用が進んでいます。