中 ByteDance が新 AI フレームワーク「 X-UniMotion 」を発表、 1 枚の画像から全身アニメーション生成

投稿者:

中国 ByteDance の研究チームが、 1 枚の静止画像から全身・手・顔の動きを極めてリアルにアニメーション化できる AI フレームワーク「 X-UniMotion 」を発表しました。

X-UniMotion の仕組みは、静止画像と「動きの元となる動画」を組み合わせて動くアニメーションを作成します。この元動画は誰かが踊ったり歩いたりしている映像で、 AI がその動作パターンを抽出し、別の人物の静止画像にその動きを適用する仕組みです。重要なのは、動きの型と人物の外見を完全に分離できることで、元動画の人物と静止画像の人物が全く別人でも自然なアニメーションが生成できます。

従来の技術が顔や体の一部に限定されていたのに対し、 X-UniMotion は体全体の動きに加えて、手のジェスチャーや表情まで一体的に再現できる点が画期的です。例えば、有名人が踊る動画を元にして家族の写真をアニメーション化すれば、その人が同じダンスを踊っているような映像を作ることができます。

技術的には、 AI がまず元動画から動きの特徴を詳細に解析し、全身の動作と手・顔の細かな動きを別々に抽出します。その後、抽出された動きを静止画像の人物構造に適合させ、最終的にリアルなビデオフレームを生成します。この過程で、参照画像の人物の外見は完全に保たれます。

実用面では、「ゆっくり歩く」「元気にダンスする」といったテキスト指示を与えると、 AI がその内容に沿った自然なモーションを即座に生成することも可能です。人間の関節や筋肉の動きを考慮し、物理的に正確なアニメーションを実現しています。

主な用途として、ゲームキャラクターやバーチャルヒューマンのアニメーション生成、映画・アニメ制作での自動化、 VR / AR 空間でのリアルな人物表現、教育・トレーニング用シミュレーションなどが想定されています。

一方で、 ByteDance は技術の悪用を防ぐため、ディープフェイクや誤情報生成への対策を重視しています。デモには公開ソースの画像のみを使用し、懸念がある場合は即座に削除するポリシーを設けています。

X-UniMotion は、静止画像から複雑な人物動作を再現できる先進技術として、従来の手作業によるアニメーション制作を大きく変える可能性があります。今後、デジタルヒューマンやメディア制作の現場で大きな影響を与えると期待されています。