OpenAI、Realtime APIを正式公開:音声対話モデル「gpt-realtime」

投稿者:

OpenAI は、ベータ版で提供されていた Realtime API を正式に一般公開し、新たな音声対話モデル「 gpt-realtime 」の提供を開始しました。この発表は 2025 年 8 月 28 日に行われ、開発者向けに多数の新機能と性能向上が導入されています。

Realtime API は、従来の音声認識と音声合成を別々に処理する手法とは異なり、音声入力から音声出力まで一貫して処理する統合型の技術です。これにより、遅延が大幅に削減され、笑い声や感情的なニュアンスなど、人間らしい音声の微細な表現も保持できるようになりました。

新モデル「 gpt-realtime 」では、特に注目すべき性能向上が報告されています。MultiChallenge オーディオベンチマークにおける命令追従精度は 30.5% を記録し、従来モデルの 20.6% から大幅に改善されました。また、Big Bench Audio では 82.8% の精度を達成し、前モデルの 65.6% を大きく上回っています。

画像入力機能も新たに追加され、ユーザーは音声やテキストに加えて写真やスクリーンショットを会話中に共有できるようになりました。これにより、視覚的な情報をベースとした対話が可能となり、「この画像について説明して」といった新しい使用シーンが生まれています。

外部システムとの連携も強化されており、Model Context Protocol( MCP )サーバー対応により、開発者は外部ツールやサービスとの統合が格段に簡単になりました。さらに、SIP(Session Initiation Protocol)対応により、従来の電話インフラとの直接連携も可能となっています。

音声面では、新しい音声「 Cedar 」と「 Marin 」が追加され、既存の 8 つの音声も改良されました。これらの音声は、「プロフェッショナルで迅速」や「親しみやすいフランス語のアクセント」など、開発者が指定したトーンや話し方を忠実に再現する能力を持っています。

価格面でも競争力が向上しており、従来モデルから 20% の値下げが実現されています。音声入力トークンは 100万トークン あたり 32 ドル(約 4768 円)、音声出力トークンは 100万トークン あたり 64 ドル(約 9536 円)となっています。

企業での採用も進んでおり、住宅検索サービスの Zillow では住宅検索や融資相談を自然な会話で支援するサービスに活用されています。