中国 IT 大手の Tencent は 2025 年 8 月 28 日、動画に自動でプロフェッショナル品質の効果音を生成する AI モデル「 HunyuanVideo-Foley 」をオープンソースで公開しました。このモデルは映像の動きや内容を解析し、完全に同期した効果音や環境音を自動生成する技術として、業界最高水準の性能を実現しています。
映像と音声の完璧な同期を実現
HunyuanVideo-Foley の最大の特徴は、映像と音声の高精度な同期です。例えば、足音やドアの開閉音、波の音など、映像の細かい動作に完全に合致する効果音を生成できます。従来の動画生成 AI では映像のみの出力が一般的でしたが、この技術により映像と音声が一体となったコンテンツ制作が可能になりました。
技術的には、映像と音声を同時に処理する高度な AI 技術を活用し、数万時間規模の動画・音声・テキストデータで学習しています。映像の視覚情報とユーザーが入力するテキスト指示を同時に分析することで、単純な音のマッチングを超えた、映像の雰囲気や文脈に合わせた音声生成を実現しています。
プロ品質の 48kHz 高音質出力
自社開発の 48kHz Audio VAE (変分オートエンコーダ)により、放送レベルの高音質な効果音、音楽、ボーカルを生成できます。海辺の映像に「波の音」というテキスト指示を与えると、波の音だけでなく、群衆の会話やカモメの鳴き声、柔らかな環境音まで自然に追加されます。車のアイドリングから高速走行への変化音や、キツネが葉っぱを踏む繊細な音まで、リアルで高品質な音響効果を生成できます。
複数の評価ベンチマークで他のオープンソースソリューションを上回り、音質の正確性、映像との一致度、タイミングの精度など全ての評価項目で業界最高水準を達成しています。 MovieGen-Audio-Bench や Kling-Audio-Eval といった主要ベンチマークでトップスコアを記録しました。
コミュニティ主導の技術革新を促進
Tencent は HunyuanVideo-Foley のコードと事前学習済みモデルを GitHub と Hugging Face で完全公開し、 AI コミュニティでの実験とイノベーションを促進しています。技術詳細をまとめた論文も arXiv で公開されており、研究者や開発者が自由に利用・改良できる環境が整っています。
使用には約 20GB 以上の VRAM を持つ高性能 GPU が必要ですが、 Hugging Face のデモページではオンラインでモデルを試すことも可能です。ユーザーはビデオファイルとテキスト指示を入力するだけで、簡単に効果音を生成できます。
AI による動画生成技術は映像面で大きく進歩してきましたが、音声の欠如が長らく課題でした。 HunyuanVideo-Foley の登場により、その状況が変わっていく突破口となるか、注目してみていきたいと思います。