ByteDance の Seaweed-7B、少ないリソースで高性能を実現した動画生成 AI モデル

中国のByteDance が新たに発表した Seaweed-7B は、70 億（7B）のパラメータを持つ動画生成 AI モデルです。この分野では、OpenAI の Sora や Google の Veo などの大規模モデルが注目されていますが、Seaweed-7B はそれらと比べてはるかに小さいモデルでありながら、同等の性能を発揮する「超効率的」な設計が特徴となっています。

Seaweed-7B は 1,000 台の NVIDIA H100 GPU でトレーニングされました。これは競合の大規模モデルが数千台以上の GPU を必要とするのに比べて、かなり少ない数だと言えます。約 200 万のビデオクリップを学習データとして使用し、特に静止画から動画への変換や人の動きの生成において優れた結果を示しています。このモデルは従来比で最大 70％のコスト削減を実現し、720p 品質の 2 秒間の動画を効率的に生成できます。

技術面では、最新の AI アーキテクチャを活用して計算効率を高めつつ、高品質な動画生成を可能にしています。モデルサイズが小さいため、クラウドサービスに頼らずに自前のコンピュータでも動作可能で、より多くの人が使いやすい点も魅力です。

具体的な数字で見ると、Seaweed-7B の学習には 665,000 GPU 時間が使われました。これは同等の性能を持つ Wan 2.1（140 億パラメータモデル）が 200 万 GPU 時間以上かかるのと比べて、約 3 分の 1 の計算コストとなります。また、1280×720 解像度の動画を毎秒 24 フレームでリアルタイム生成でき、同等モデルと比べて 62 倍の処理速度を実現しています。必要なグラフィックメモリも 40GB と比較的少なく、一般的な高性能 GPU でも扱いやすい設計です。

このモデルは「より大きくではなく、より賢く」という新しい考え方を示すもので、AI 動画生成技術をより多くの人が使えるようにする可能性を秘めています。一方で、高品質な動画生成が簡単になることで、ディープフェイクのリスクも高まるため、ByteDance が倫理面でどう対応するかも注目されています。