アリババのAI研究部門Tongyi Labは2025年2月26日、動画生成AIモデル「Wan2.1」をオープンソースとして公開しました。このモデルは「Tongyi Wanxiang(万象)」シリーズの最新バージョンとして位置づけられ、テキストや画像から高品質なビデオを生成する能力を持っています。
Wan2.1は4つの異なるモデルで構成されており、それぞれ特徴が異なります。13億パラメータの軽量モデル「T2V-1.3B」は一般的なコンシューマー向けGPUでも動作可能で、140億パラメータを持つ高性能モデル「T2V-14B」はテキストから動画を生成する能力に優れています。さらに「I2V-14B-720P」と「I2V-14B-480P」は画像からそれぞれ720pと480pの少し解像度を落とした動画を生成することができます。
Wan2.1の特筆すべき特徴として、現在の最先端(State-of-the-Art)モデルを超える性能を持つことが挙げられます。特にOpenAIの「Sora」と比較して映像の品質や自然さにおいて優れていると報じられており、AI特有の不自然な動きや歪みが大幅に減少し、滑らかで現実的な映像生成が可能になっています。
また、Soraと比べて約2.5倍の速度でビデオを生成できる高速性も特徴です。さらに、ビデオ内で英語と中国語のテキストエフェクト(字幕やエフェクト効果など)を生成できる初のモデルとして、多言語でのクリエイティブな活用が期待されています。
アリババがWan2.1をオープンソース化(Apache 2.0ライセンス)したことは、AI業界における競争を加速させる動きとして評価されています。世界中の研究者や開発者がこの技術を無料で利用し、カスタマイズや改良を加えられるようになりました。これはOpenAIのSoraやGoogleのVeo 2など、既存の有力モデルに対する直接的な挑戦となり、業界全体の技術革新を促す可能性があります。
このモデルはエンターテインメント、教育、広告、科学研究など幅広い分野での応用が期待されており、特にビデオコンテンツ制作のコスト削減や効率化に寄与する可能性があります。ソースコードはGitHubで公開されており、Hugging FaceやModelScopeからもダウンロード可能です。