中国のeコマース大手Alibaba(アリババ)の研究者チームが、1枚の画像と音声データのみを使って、非常にリアルに「話す」または「歌う」ポートレート動画を生成するAIシステム「EMO(Emote Portrait Alive)」を開発しました。
EMOは、Stable Diffusionの画像生成モデルをベースに、3Dモデリングなどを経由せずに、音声から直接ビデオを生成します。これにより、より自然でスムーズな表情の変化が可能になったとのことです。実写、アニメ、3DCGなど様々なスタイルの動画を生成でき、どのスタイルでも一貫して口の動きを同期(リップシンク)させることができます。
EMOは、既存の手法と比較して表現力とリアリティにおいて大きく優れており、多様なポートレートスタイルにも適応可能です。エンターテインメントから教育まで、幅広い分野での活用が期待されています。
デモ動画を見る限り非常に自然な仕上がりで、偽の動画を作成するディープフェイクへの悪用も懸念されています。Pika LabsやHeyGenなども同様の技術開発を進めており、AIによるリアルな動画生成技術をめぐっては、今後も倫理的な議論が交わされることでしょう。