Google が「Magenta RealTime」をリリース、リアルタイム音楽生成を実現

Google は、リアルタイムで音楽を生成・操作できるオープンソースの AI モデル「Magenta RealTime（Magenta RT）」を発表しました。これは、Google DeepMind の Lyria RealTime の「オープンウェイト版のいとこ」として位置づけられており、MusicFX DJ や Google AI Studio のリアルタイム音楽 API を支える技術をベースにしています。

Magenta RT の最大の特徴は、従来の「指示を出して待つ」AI 音楽生成とは根本的に異なることです。「80 年代風シンセウェーブ」といったテキスト指示や音声サンプルを使って、その場で音楽を生成・操作できます。これにより、ライブパフォーマンスや即興演奏のような「人と AI の共創」が実現します。

技術的には 3 つの主要コンポーネントで構成されています。SpectroStream は高音質（48kHz ステレオ）の音声をトークン化・復元するニューラルオーディオコーデックです。MusicCoCa はテキストと音楽の両方を理解し、スタイルや雰囲気を制御するマルチモーダル埋め込みモデルです。そして 800M パラメータの Transformer LLM が、10 秒間の直近オーディオ文脈とスタイル情報から 2 秒ごとに音楽を生成します。

超低レイテンシも大きな魅力で、2 秒分の高音質音楽を約 1.25 秒で生成できます。これにより、ライブ演奏や DJ 、ゲーム BGM の動的生成など、即時性が求められる用途に対応できます。従来の MusicLM や MusicGen が数十秒から数分の遅延を持つのとは大きく異なります。

オープンソースプロジェクトとして、ソースコードは Apache 2.0 ライセンスで GitHub で公開され、モデルウェイトは Hugging Face でも配布されています。現在は Google Colab の無料 TPU 上で動作しますが、今後は一般的な PC やローカルデバイスでも動作予定です。個人のカスタマイズやファインチューニングもサポートされる予定で、研究者やアーティスト、開発者に幅広いアクセシビリティを提供します。

現時点では 1 回の生成は最大 10 秒までで、主にインストゥルメンタル音楽が対象ですが、連続的に生成することで長尺の音楽も制作できます。今後はローカルデバイス対応や個人向けファインチューニング機能の拡充が予定されています。

Magenta RealTime は、「AI が即興で人と一緒に音楽を創る」新時代の幕開けを象徴するモデルといえるでしょう。GitHub や Colab で誰でも試すことができ、様々なシーンで人と AI の音楽共創を実現する基盤となることが期待されます。