TikTokの親会社ByteDanceは、1枚の画像と音声入力から高度にリアルな動画を生成できるAIシステム「OmniHuman-1」を発表しました。このシステムは、従来のディープフェイク技術を大きく上回る精度とリアルさを実現し、特に人間の動きや表情、ジェスチャーの自然な再現性で注目を集めています。
OmniHuman-1は、約19,000時間の動画データを使用して訓練されており、Diffusion Transformer(DiT)アーキテクチャを採用することで、弱い信号からでも高品質な動画生成を可能にしています。また、オムニコンディション・トレーニングという新しい手法により、データの多様性を高め、動きのリアリズムを向上させることに成功しました。
システムの特徴として、音声、動画、ポーズなど複数の入力形式を統合できる点が挙げられます。また、ポートレート、半身、全身など、さまざまな画像形式に対応し、アスペクト比や体の比率も柔軟に調整することができます。
応用分野としては、映画制作やゲーム開発、教育用コンテンツの制作、広告制作など、幅広い活用が期待されています。一方で、この技術はフェイク情報の拡散やプライバシー侵害といったリスクも懸念されており、適切な規制と倫理的な使用が課題となっています。
ByteDanceは、この技術が持つ大きな可能性と同時に、社会的な影響力も認識しており、適切な利用ガイドラインの策定も進めているとしています。