HeyGen「Avatar IV」、たった1枚の写真から表情豊かなアバター動画を生成

HeyGen は 2025 年 5 月 6 日にAI アバター生成技術、「Avatar IV」を発表しました。1 枚の写真と音声（またはスクリプト）だけで、驚くほどリアルかつ表情豊かなアニメーション動画を自動生成できるのが最大の特徴です。

従来の AI アバターと一線を画す Avatar IV の最も革新的な点は、「ディフュージョン（拡散）型 Audio-to-Expression エンジン」を搭載していることです。このエンジンは音声のトーン、リズム、感情を緻密に解析し、口元の動きだけでなく、まばたき、眉の動き、頭の傾き、微細な表情、自然な間やうなずきまで再現します。これにより、従来の AI アバターよりも「生きている」ような印象を与えることができます。

また、Avatar IV では初めて、手や腕の動きも自動生成されるようになりました。ポートレート（バストアップ）、ハーフボディ、フルボディの各フォーマットに対応し、話し手の抑揚や感情に合わせて自然なジェスチャーが加わり、より人間らしい動画になります。

使い方はシンプルで、ユーザーは静止画像を 1 枚アップロードし、スクリプトまたは音声を入力するだけ。複雑な動画編集やアニメーションの知識は不要で、ブラウザ上で数クリックの操作で、最短数秒から数分で動画が完成します。専用ソフトや GPU も必要ありません。

人間以外にも、ペットやキャラクター、アニメ調、非現実的な造形にも対応可能です。さらに 70 以上の言語・175 以上の方言に対応しており、多言語展開も容易です。

料金は月額 24 ドルからのサブスクリプションで、無料枠も用意されています。

実際の生成動画では、話し手の音声に合わせて細かな表情やジェスチャーがつき、従来よりも自然な動きが実現されています。ただし、実際に使ってみたユーザーからは、リップシンクや表情の一部にはまだ「AI らしさ」や「不自然さ」が残る場合も報告されています。それでも、従来の AI アバター生成や手作業によるアニメーションと比べれば、圧倒的な効率化・コスト削減・表現力の向上が実現されています。

一方で、技術の発展による懸念も指摘されています。特にディープフェイクのリスクは高まり、単一写真と音声で説得力のある動画が作れるため、なりすましが容易になる可能性があります。また、アバターの所有権や使用権に関する倫理的・法的な問題も浮上しています。

HeyGen は今後さらに「全身トラッキング」「感情表現の深化」「リアルタイムカスタマイズ」などの機能強化を予定しており、AI アバターの進化は続く見込みです。