Google DeepMind は 2026 年 4 月 15 日、新しいテキスト読み上げモデル「 Gemini 3.1 Flash TTS 」を公開しました。音声の表現力や制御のしやすさを大幅に改善したモデルで、企業や開発者が音声サービスを構築する際の選択肢として注目されています。
最大の特徴は、音声の話し方を細かく指定できる「オーディオタグ」機能です。たとえば「力強く」「ささやくように」「笑いながら」といった指示をテキストに直接書き込むだけで、感情やトーンを思い通りにコントロールできます。これまでは専門的な記述言語の知識が必要でしたが、今回のモデルでは日常的な言葉で指定できるため、非エンジニアでも扱いやすい設計になっています。英語については地域ごとのアクセントも複数用意されており、用途に応じた使い分けが可能です。
複数の話者が自然に会話するシーンの音声生成にも対応しており、ポッドキャストや音声アシスタントの開発に活用しやすい仕様です。対応言語は 70 以上で、 Google の動画作成ツール「 Google Vids 」との連携では 24 言語で新しい音声オプションが追加されています。
品質面では、音声 AI の評価機関「 Artificial Analysis 」が実施した数千人規模の聴き比べテストで、世界 2 位に相当するスコアを獲得しています。 ElevenLabs など既存の主要サービスを品質面で上回りつつ、コストパフォーマンスの高さでも高評価を得ています。
料金は、テキスト入力 100 万トークンあたり $1.00(約 150 円)、生成した音声 100 万トークンあたり $20.00(約 3,000 円)です。現在は開発者向けに Google AI Studio 、企業向けには Vertex AI を通じて提供されており、申し込み待ちなしで今すぐ利用できます。
なお、生成されるすべての音声には AI が作成したことを示す電子透かし( SynthID )が自動的に埋め込まれる仕組みになっており、コンテンツの信頼性確保にも配慮されています。ただし、現時点はプレビュー版のため、企業の本番運用に求められる品質保証( SLA )は提供されていません。また、オーディオタグ機能は現状英語のみ対応している点も留意が必要です。
