Google DeepMind が開発した最新の AI 楽曲生成モデル Lyria 3 が、Google の AI チャットサービス Gemini に統合され、2026 年 2 月 18 日より一般公開されました。2025 年 5 月に登場した Lyria 2 の後継となる本モデルは、テキスト入力だけでなく写真やビデオといった視覚的情報を基に、ボーカルや歌詞、カバーアートまでを含めた高品質な楽曲を生成できる点が大きな特徴です。対象ユーザーは 18 歳以上のすべての Gemini ユーザーであり、デスクトップ版から順次展開され、モバイル版も数日中に利用可能となる見通しです。対応言語は日本語を含む 8 言語で、グローバル規模でのサービス提供が開始されています。
Lyria 3 の強みは、専門的な音楽知識を持たないユーザーでも、わずか数秒で完成された楽曲を生成できる点にあります。従来のテキストプロンプトに加え、写真をアップロードすることで AI が画像の色彩、被写体、ムードを解析し、それに合致したメロディや楽器構成を自動的に決定するマルチモーダル入力が可能となりました。生成されるトラックは SNS やショート動画での利用を想定して一律 30 秒間に設定されており、インストゥルメンタルが中心だった前モデルとは異なり、プロンプトに基づいた歌詞の作成と人間に近い自然な歌声の合成が標準機能として搭載されています。さらに、楽曲が完成すると Google の画像生成 AI モデル Nano Banana を用いて、その曲のテーマに沿ったアルバムカバーアートも同時に提供されます。
技術的な仕様面でも、Lyria 3 は前モデルから大幅な進化を遂げています。オーディオ品質は従来の 16-bit / 44.1kHz から、プロフェッショナルな制作環境にも耐えうる 24-bit / 48kHz のハイレゾ級へと向上しました。学習データ量は約 50 万トラックから 200 万トラック以上へと拡大し、生成速度も 15 〜 30 秒から 5 〜 10 秒へと短縮されています。
AI による音楽生成が拡大する中で、Google は著作権保護と安全性にも重点を置いています。Lyria 3 で生成されたすべての音声ファイルには、Google 独自の技術 SynthID を用いた不可聴の電子透かしが埋め込まれており、ファイルが圧縮や再録音されても AI 生成コンテンツであることを特定可能です。また、特定の既存アーティスト名を指定したプロンプトに対しては、そのスタイルを参考にしつつも、直接的な声の模倣や楽曲の複製を行わないよう厳格なフィルターが適用されています。
