NVIDIAが、音声生成と編集の分野の新しいAIモデル「Fugatto」(フガット)を発表しました。Fugattoは、25億のパラメータを持つ大規模なモデルで、テキストプロンプトや音声入力から様々な音(音楽・音声・効果音など)を生成することができます。
Fugattoの主な機能には、音楽の生成と編集、声のアクセントや感情の変更、楽器音の追加や削除、歌声の生成、音響効果の作成などがあります。これにより、トランペットが猫の鳴き真似をするといった奇抜な音を作ることや、楽曲からボーカルのみを取り出す、新しい効果音を作る、など様々な表現が可能になります。
今までもいくつかの音楽生成モデルや音声生成モデル、効果音の生成モデルなどでそれぞれ断片的に色々な会社がモデルを公開してきましたが、今回のFugattoはそれらをすべて1つにまとめたような印象です。それほど目新しいものはありませんでしたが、デモを見る限り、生成される音はクオリティが高く、様々な機能のすべてがまとまっているのであれば、使い勝手が良さそうです。
このモデルは、BBCのサウンドエフェクトライブラリーを含む大規模なデータセットで訓練されており、NVIDIA DGXシステムと32個のNVIDIA H100 Tensor Core GPUを使用して開発されました。音楽制作や広告、ゲームなどの分野での応用が期待されています。
現時点ではまだツールの一般公開はされておらず、公開時期も発表されていませんが、今後の展開に期待が高まります。