Stability AIが、テキストプロンプトから短い音楽や効果音を生成できるオープンソースのAIモデル「Stable Audio Open」を発表しました。このモデルは、最大47秒の高品質なオーディオデータを生成することが可能で、主にドラムビート、楽器のリフ、環境音、効果音などの音楽制作やオーディオサンプルの作成に最適化されています。
Stable Audio Openは、FreesoundとFree Music Archiveのオーディオデータを使用して学習しており、クリエイターの権利を尊重しています。また、ユーザーは自身のオーディオデータを使ってモデルをファインチューニングすることもできます。
一方、Stability AIが先に発表した商用版の「Stable Audio」は、最大3分間の高品質なフル楽曲の生成や、オーディオ間の変換、複数の楽器による楽曲作成などの高度な機能を提供しています。Stable Audio Openは、フル楽曲やメロディー、ボーカルには最適化されていませんが、必要な人にとっては十分に使える機能が含まれています。
生成AIのトレンドは、当初、画像生成やチャットボットから始まり、現在は音楽や音声に移行しています。次は動画生成も本格化していくと予想されます。これらのツールを使って、ミュージシャンが新しいビートを考えたり、映画やテレビのディレクターが効果音を作成したりするなど、クリエイターにとっては創作活動をサポートしてくれるツールとなるでしょう。
Stability AIは、資金問題やCEOと幹部の辞任などのトラブルを抱えていましたが、着実に新しいモデルを発表し続けています。もともと先行していた企業だけに、健全な立ち直りが期待されます。