AlibabaのAI「EMO」、写真を話す動画に変換

2024年3月25日

投稿者: aiupdate

文字サイズ

中国のeコマース大手Alibaba（アリババ）の研究者チームが、1枚の画像と音声データのみを使って、非常にリアルに「話す」または「歌う」ポートレート動画を生成するAIシステム「EMO（Emote Portrait Alive）」を開発しました。

EMOは、Stable Diffusionの画像生成モデルをベースに、3Dモデリングなどを経由せずに、音声から直接ビデオを生成します。これにより、より自然でスムーズな表情の変化が可能になったとのことです。実写、アニメ、3DCGなど様々なスタイルの動画を生成でき、どのスタイルでも一貫して口の動きを同期（リップシンク）させることができます。

EMOは、既存の手法と比較して表現力とリアリティにおいて大きく優れており、多様なポートレートスタイルにも適応可能です。エンターテインメントから教育まで、幅広い分野での活用が期待されています。

デモ動画を見る限り非常に自然な仕上がりで、偽の動画を作成するディープフェイクへの悪用も懸念されています。Pika LabsやHeyGenなども同様の技術開発を進めており、AIによるリアルな動画生成技術をめぐっては、今後も倫理的な議論が交わされることでしょう。

AlibabaのAI「EMO」、写真を話す動画に変換

関連記事

中国 Moonshot AI、Kimi K2.6 を正式公開：コーディング性能で米国フロンティアモデルと競合

Adobe の新 AI アシスタント、Photoshop や Premiere など複数アプリを横断して自律的に作業を実行

Z.aiのGLM-5.1、オープンソースモデルとして初めてSWE-Bench Proで首位を獲得