TikTokの運営会社、中国の ByteDance は、新しい動画生成 AI モデル「 Seedance 1.0 」を正式リリースしました。このモデルは、テキストから動画、画像から動画の両方で、Google の Veo 、OpenAI の Sora 、Kuaishou の Kling といった最先端モデルを上回る性能を記録し、業界で大きな話題となっています。
Seedance 1.0 の最大の特徴は、圧倒的なスピードとコストパフォーマンスです。5 秒間の 1080p 動画をわずか約 41 秒で生成でき、これは同じ品質の他社モデルと比べて 2 ~ 4 倍高速です。しかも 1 本あたり約 0.5 ドル(約 73 円)という低価格で提供されるため、従来数十万円かかっていた短編映像制作が数百円・数分で実現できるようになります。
技術面でも大きな進歩を遂げています。「時系列因果 VAE 」と「空間・時間分離型拡散トランスフォーマー」という独自技術を組み合わせ、マルチステージ蒸留プロセスにより推論速度を約 10 倍に高速化しました。さらに人間のフィードバックによる強化学習を活用し、動きの品質、美的品質、プロンプト遵守性を多次元で最適化しています。
生成される動画の品質も印象的です。指定したテキストや画像に基づいて、髪や肌の質感、物理的な動き、微妙な表情変化まで細かく再現できます。マルチショット(複数シーンの連続)やカット割り、ショットの継続性など、映画的な演出もサポートしており、従来の「おもちゃ」的な AI から「本格的な映像制作ツール」への飛躍を実現している、とされています。
プロンプトへの忠実性も大幅に向上しており、指定した動きやカメラワーク、スタイル(アニメ、ピクセルアート、写実など)を正確に再現します。これにより、ユーザーの意図した通りの動画を確実に生成できるようになりました。
競合モデルとの比較でも Seedance 1.0 の優位性は明らかです。Artificial Analysis Arena などの外部ベンチマークで、テキストから動画・画像から動画の両部門で首位を獲得しています。Google の Veo 3 や OpenAI の Sora と比べても、プロンプト遵守性や生成速度で優れた結果を示しています。
技術的な基盤として、ByteDance は TikTok や Douyin を通じて蓄積した膨大な動画データと、Volcano Engine のクラウドインフラを活用しています。これらのリソースを組み合わせることで、他社では実現困難な高速・高品質な動画生成を可能にしています。
実用化も本格的に進んでおり、ByteDance のプラットフォームである Doubao アプリの「写真のアニメーション化」機能などで一般ユーザーも利用できます。企業向けには API も提供されており、広告、SNS コンテンツ、教育、エンターテインメントなど幅広い分野での活用が期待されています。