動画生成AIの分野で新しいオープンソースモデルが公開されました。Genmoが発表した「Mochi 1」は、100億のパラメーターを持つオープンソースのテキストからビデオを生成するAIモデルで、Apache 2.0ライセンスの下で誰でも無料で利用できる仕様となっています。
Mochi 1の特徴的な点は、独自開発した「非対称拡散トランスフォーマー(Asymmetric Diffusion Transformer、AsymmDiT)」というアーキテクチャを採用していることです。このモデルは480pの解像度で30fpsのビデオを生成でき、最大5.4秒までの動画生成が可能です。特に注目すべきは、流体力学や人間の動作など、物理的な動きの表現が非常に自然であり、プロンプトへの忠実度も約78%という高い精度を実現していることです。
利用面では、genmo.ai/playで無料でテストが可能で、開発者向けにはHugging Faceで公開されています。ただし、現時点では動作に4台のNVIDIA H100 GPUが必要という制約があり、解像度も480pに限定されています。
Genmoは年内に、720p対応の「Mochi 1 HD」バージョンを公開する予定で、より高品質な動画生成機能の実装も計画されています。このモデルは、RunwayやKling、Lumaなどの商用サービスに対抗する形で、オープンソース動画生成AIのスタンダードとなることを目指しています。
また、ビデオを1/128のサイズに圧縮するコンバータも同時に公開されており、計算とメモリの負担を軽減する工夫も施されています。