イーロン・マスク氏が創業した xAI は 2026 年 4 月 23 日、新しい音声 AI エージェント「Grok Voice Think Fast 1.0」を正式に発表しました。開発者がリアルタイムで動作する音声エージェントを開発するためのモデルとして設計されており、xAI の API を通じて即日から利用できます。
性能については、騒音や訛り、話者の割り込みといった現実的な会話環境を想定した評価指標「τ-voice Bench」で 67.3% を記録しました。競合の Google Gemini 3.1 Flash Live( 43.8% )や OpenAI の GPT Realtime 1.5( 35.3% )と比較しても大きく差をつけており、通信業界向けの専門評価でも 73.7% の正解率を出しています。最も近い競合との差は 33 ポイントで、数値の上では際立った結果となっています。
機能面で注目されるのは、相手が話し終わるのを待たずに応答を生成できる点です。通常の電話対応では相手の発言が終わってから処理が始まりますが、このモデルは聞きながら同時に考えるため、会話のテンポが人間に近くなります。また、速いペースで話された場合や訛りがある場合でも、名前・住所・電話番号・口座番号といった情報を正確に聞き取ることができます。対応言語は 25 以上で、多言語対応が必要な事業にも活用できます。日本語も対応言語となっていますが、英語に比べて精度は今ひとつという評価も出ています。
すでに実際のビジネス環境への導入事例も公表されています。Starlink のサポート・販売電話窓口にこのモデルが導入されており、問い合わせの 20% が成約につながり、サポート対応の 70% は人間のオペレーターを介さずに完結しているとのことです。ハードウェアの故障対応やサービスクレジットの付与といった判断も自律的に処理しています。
料金は 1 分あたり 0.05 ドル(約 7.5 円)で、カスタマーサポートや電話営業、予約受付など幅広い業務への導入が想定されています。xAI にとっては、Grok をチャットツールとしてではなく、企業の業務そのものを担う基盤として育てていく狙いが見えます。数値だけでなく実際の運用実績を示したことで、「デモ段階」にとどまらないプロダクトとして評価されています。
