ByteDanceが「X-Portrait 2」を発表:1枚の静止画に表情をつけて動かす動画生成モデル

投稿者:

TikTokを運営している中国の企業ByteDanceが新たに「X-Portrait 2」を発表しました。これは1枚の静止画から俳優のように表情豊かなポートレイト動画を生成できる新しい動画生成AIシステムです。このモデルを使うと、恐怖や怒り、喜びなど説得力のある感情表現が可能で、舌の動きや頬を膨らませる、眉をひそめるといった微細な表情までリアルに再現できるのが特徴です。

技術的には、従来の顔の特定のポイントを追跡する手法とは異なり、顔全体の動きを学習しているため、高速な頭の動きや横顔でも自然な表情を維持できるとされています。ByteDanceはTikTokの10億以上の動画データベースを活用した学習と、世界各地でのAI研究センター展開によるグローバルな開発体制を活かしてこのシステムを開発しました。

使い方としては、動かしたいキャラクターの静止画を1枚用意し、同時に動かしたい表情を表現した動画を用意します。そうすると、動画の表情に合わせて静止画のキャラクターを動かすことができる、というものです。先日発表されたRunwayの「Act-One」と同様の技術となります。

この技術を使用すると、アニメーション制作時のコスト削減と効率化、バーチャルキャラクターの表現力向上など、映像制作の現場を大きく変える可能性を秘めています。一方で、ディープフェイクなど悪用の可能性も懸念されるため、ByteDanceは技術の悪用を防ぐ目的で実装の詳細を非公開としているとのことです。

Runwayの発表に遅れること3週間ほどで中国の企業も同様の技術を発表してきました。ByteDanceは対中経済制裁の抜け道を使い、アメリカでAI技術の開発を行っていることが問題視されていますが、米中のAI開発競争が続いています。