Microsoft、1枚の画像と音声から驚くほどリアルなビデオを生成するAIモデル「VASA-1」を発表

Microsoftが、1枚の静止画像と音声から、驚くほどリアルな話者のビデオを生成できる新しいAIモデル「VASA-1」を発表しました。

先日Alibabaが似たような技術を発表しご紹介しましたが、今回、Microsoftも同様の技術を発表しました。技術としては、被写体の1枚の写真と音声ファイルから、口の動きと感情表現を同期させたリアルな話し手のビデオを作成するというものです。ニュアンスのある表情、自然な頭の動き、さらには歌のパフォーマンスを生成することができます。また、スライダーを使って、視線の方向、頭の距離、感情のトーンなど、生成されたビデオを様々にカスタマイズできます。以前のAlibabaのデモもびっくりしましたが、今回のVASA-1もデモ動画を見ると、単純なリップシンクをはるかに超え、表情が豊かでかなりのリアルさを感じることができます。

技術的には、表情と頭の動きを統一的にモデル化している点が革新的なようです。従来の方法では、これらの要素を別々に扱っていました。また、詳細な顔の表情、ニュアンスのある表情、表情や頭の姿勢、アイデンティティの効果的な制御のために、膨大な学習用データセットを丁寧に構築し、トレーニングを行っているとのことです。

VASA-1は、また一歩、AIのビデオ生成分野で進歩を示しました。教育やヘルスケア、マーケティングなどの分野で活用が期待されます。ただ一方で、あまりにも自然なビデオが生成できるようになってきていることで、悪用のリスクがさらに高まりました。現在マイクロソフトはこの技術を一般公開は予定していないようですが、いずれ他の会社も追いついてきます。アメリカで大統領選を11月に控えていますが、こうしたディープフェイク技術にどう対応していくのか、法規制も急ぐ必要があります。