Nvidiaが4.7秒の短い動画を生成するAI技術を発表

投稿者:

Nvidiaは、2023年のIEEE Conference on Computer Vision and Pattern Recognition (CVPR)で、短い動画を生成するAI技術を発表しました。この技術は、簡潔なテキストを元に最大4.7秒の動画を生成できるものです。

Latent Diffusion Models (LDMs)を利用することで、高品質な画像や動画の合成が可能となり、計算時間を大幅に短縮することができます。研究チームは、LDMを画像に対して事前に学習させ、時間軸を追加して動画生成に適用しました。この手法により、1280×2048解像度で24 FPSの113フレームの動画(約4.7秒)を生成できます。

この技術は、現実世界の運転データのシミュレーションやテキストから動画を生成するコンテンツ作成など、さまざまなアプリケーションに適用できると期待されています。また、事前学習済みの画像LDMを利用することで、効率的かつ表現力豊かな動画生成が実現できます。

この技術の発展により、数年以内に簡単なテキストプロンプトから長編映画を生成することが可能になるかもしれません。今後の技術進歩に注目が集まります。