中国のテック大手 Tencent は、静止画像から高品質な動画を生成する AI モデル「 HunyuanVideo-I2V ( Image-to-Video )」をオープンソースとして公開しました。このモデルは、高度な特殊効果やオーディオ生成、リップシンク機能を備えており、 AI を活用した動画制作の分野で注目を集めています。
高解像度・高品質な動画生成
HunyuanVideo-I2V は、Tencent が以前開発したテキストから動画を生成する「 HunyuanVideo 」を拡張したもので、静止画像を入力として自然な動きと視覚的整合性を保った動画を生成できます。特に、最大 2K 解像度の高品質な動画を作成できる点が特徴で、従来の AI 動画生成ツールで課題となっていた「ちらつき」や不自然な動きを大幅に改善しています。
技術的特徴
このモデルは、 130 億パラメータのマルチモーダル AI を採用し、「 Image Latent Fusion Technology (画像潜在結合技術)」によって入力画像の情報を動画へ効果的に再構築し、自然なトランジションを実現します。また、 LoRA ( Low-Rank Adaptation )トレーニングコードが提供されており、ユーザーは自身のデータを用いて独自の特殊効果を作成できます。
音声・動作のインタラクション機能
HunyuanVideo-I2V は、リップシンク機能により 10 種類の音声スタイルを利用できるほか、背景音やキャラクターの動きに基づいたインタラクションの追加も可能です。さらに、 5 種類のダンスルーティンなどのプリセットテンプレートが用意されており、さまざまな表現を手軽に実現できます。
実用例と効果
すでに以下のような応用例が報告されています。
- E コマース :商品の 360 度動画制作に活用し、生産速度を 60 % 向上
- 映画制作 :ストーリーボード作成時間を 40 % 短縮
- コミュニティ作品 :「万里の長城での漢服変身」「バーチャルアイドルダンス」などのユニークな制作事例が登場
高性能 GPU が必要な環境要件
モデルの動作には高性能な GPU が必要で、 720p 動画の生成には最低 60GB の GPU メモリ、より高品質な 2K 解像度の動画には 80GB のメモリが推奨されています。また、 Stable Diffusion のインターフェース「 ComfyUI 」と統合されており、直感的なワークフロー構築が可能です。
オープンソース化の意義と課題
Tencent が HunyuanVideo-I2V をオープンソース化したことで、商用モデルに頼らずとも誰でも高度な動画生成技術を無料で利用できるようになりました。研究者や開発者がモデルの改良や新たな応用を模索できる点も大きなメリットです。
一方で、高性能 GPU が必要なため一般ユーザーにはハードルが高いこと、またローカル環境内で不適切なコンテンツを大量に生成することができる点が懸念されるといった課題も指摘されています。