Alibaba の Tongyi Lab が 2025 年 7 月 28 日、最先端のオープンソース AI 動画生成モデル「 Wan2.2 」を公開しました。このモデルは、テキストや画像から映画のような高品質な動画を生成できる画期的な技術として注目されています。
世界初の MoE アーキテクチャを採用
Wan2.2 の最大の特徴は、世界初のオープンソース Mixture-of-Experts ( MoE )アーキテクチャを動画生成に導入したことです。高ノイズ用と低ノイズ用の 2 つの専門エキスパートを動的に使い分けることで、映像のレイアウトから細かいディテールまで効率的に最適化します。総パラメータ数は 270 億( 27B )ですが、推論時には 140 億( 14B )のみがアクティブとなり、計算コストを大幅に削減しながら高品質な生成を実現しています。
コンシューマー GPU でも映画品質を実現
従来の動画生成 AI は高額な業務用 GPU を必要としていましたが、 Wan2.2 は RTX4090 のようなコンシューマー向け GPU でも 720p / 24fps の高品質動画を生成できます。特に軽量版の「 Wan2.2-TI2V-5B 」モデルでは、約 9 分以内で 720p 動画を生成可能で、個人クリエイターにも手の届く技術となっています。
モデルは 3 つのバリエーションが用意されており、テキストから動画生成に特化した「 Wan2.2-T2V-A14B 」、画像から動画生成に最適化された「 Wan2.2-I2V-A14B 」、そして両方に対応するハイブリッド型「 Wan2.2-TI2V-5B 」から選択できます。
映画業界レベルの制御機能
Wan2.2 は単なる動画生成にとどまらず、映画業界で求められるレベルの詳細な制御機能を備えています。照明、色調、画角、フレームサイズ、被写界深度などの調整が可能で、カメラのパン、ズーム、フォーカスなどの動きも自在にコントロールできます。さらに、わずか 10 〜 20 枚の画像でスタイル適用ができる LoRA 拡張や、リアルな火や煙、照明などのボリュメトリック効果もサポートしています。
大幅に強化されたトレーニングデータ
前バージョンの Wan2.1 と比較して、約 65.6% 多い画像と 83.2% 多い動画でトレーニングを実施。これにより、より自然で複雑な動きを実現し、文章理解、物理ルールの反映、映像的な美しさで他の競合モデル( Seedance 、 Hailuo 、 Kling 、 Sora など)を上回る評価を獲得しています。
オープンソースによる公開
Wan2.2 は Apache 2.0 ライセンスで公開され、商用利用や開発への参加が誰でも可能です。 GitHub 、 Hugging Face 、 Alibaba Cloud ModelScope 等でダウンロードでき、英語・中国語対応のバイリンガルプロンプトにも対応しています。
OpenAI の Sora や Google の Veo 2 などのプロプライエタリモデルに対抗する性能を持ちながら、オープンソースとして提供されることで、 AI 動画生成の普及に大きく貢献することが期待されます。