Google の新音声 AI モデル「 Gemini 3.1 Flash Live 」が正式発表——主な改善点と提供形態

投稿者:

Google は 2026 年 3 月 27 日、音声によるリアルタイム会話に特化した AI モデル「 Gemini 3.1 Flash Live 」を発表しました。同社はこれを「これまでで最高品質の音声モデル」と位置づけており、電話対応や音声検索など、人が声で操作するあらゆる場面での活用を想定しています。

今回の刷新で特に目立つのは、会話の質と記憶力の向上です。声のトーンや話すテンポといった細かなニュアンスをより正確に認識できるようになり、やりとりの自然さが増しました。また、一度の会話で保持できる内容の量が従来の 2 倍に増え、長時間にわたる商談や会議の議論でも文脈を見失いにくくなっています。対応言語は 90 以上で、騒がしい場所でも必要な声だけを正確に拾えるノイズ除去の精度も改善されました。

客観的な性能指標でも良好な結果が出ています。複雑な指示への対応力を測る業界テストでは 90.8% を記録し、別の総合音声評価では比較対象のモデルの中で最高スコアを獲得しています。

企業が導入しやすい体制も整っています。自社システムへの組み込みを検討している開発チーム向けには API が公開されており、顧客対応窓口への導入を考える企業向けにはエンタープライズプランが用意されています。さらに Google 検索と連携する「 Search Live 」が 200 以上の国・地域で利用可能になり、音声やカメラを使った検索が世界各地の言語に対応しました。

リスク管理の面でも手が打たれています。このモデルが生成する音声にはすべて、耳には聞こえない電子透かし「 SynthID 」が自動で付与されます。後から AI による生成物かどうかを確認できるため、音声を使ったなりすましや偽情報の拡散を抑止する効果が期待されています。

実際の導入事例も出てきています。 Verizon や The Home Depot などの大手企業が業務フローへの組み込みを進めており、顧客対応の品質向上に手応えを感じていると伝えられています。また Google と Apple が結んだ長期契約により、 Apple の音声アシスタント Siri の中核技術として Gemini が採用される見通しです。表向きは Apple のサービスとして届けられますが、その実力を支えるのは Gemini 3.1 Flash Live ということになります。