2025年12月16日 Metaが、複雑な音声の中から特定の音だけを分離できる新しいAIモデル「SAM Audio」をリリースしました。これは、同社が以前に画像や動画のセグメンテーションで高い評価を得た「Segment Anything Model (SAM)」のコンセプトを音声分野に応用したものです。
従来の音声編集ツールは、ノイズ除去やボーカル抽出など特定の機能に特化しているのが一般的でした。それに対し、SAM Audioは単一の統合モデルで多様な音声分離タスクに対応します。最大の特徴は、ユーザーがテキスト、視覚、時間区間という3種類の直感的なプロンプトを使い、分離したい音を指示できる点です。例えば、「犬の鳴き声」とテキストで入力したり、動画内でギターを弾いている人物をクリックしたりするだけで、目的の音を分離または除去できます。
この技術は、音楽制作、ポッドキャストや動画の編集、映画制作など、幅広い分野での活用が期待されています。録音に入ってしまった不要な背景ノイズを消したり、楽曲から特定の楽器の音だけを抜き出してリミックス素材にしたりといった作業が、専門家でなくても簡単に行えるようになります。Metaは、この技術が同社のAIグラスにおけるスマートオーディオ機能の基盤となり、ユーザーが聞きたい音に集中できる体験を提供することにも繋がると考えているようです。
一方で、この技術にはいくつかの課題も残されています。似たような音が複数混在している場合(例:オーケストラの中の特定の楽器)の完全な分離は依然として難しく、ハードウェアの要求スペックも比較的高いため、一般ユーザーのローカル環境での利用にはハードルがあるかもしれません。また、音声を簡単に分離できることは、他者のコンテンツの無断利用といった著作権上の新たな問題を生む可能性も指摘されています。
Metaはモデル本体と同時に、性能評価のためのベンチマークやAI判定モデルも公開しており、この分野の研究開発を促進する姿勢を見せています。
