OpenAI 音声生成・TTS/STS 音声認識・STT

OpenAI の新しい音声モデル3種発表ー推論・翻訳・文字起こしをリアルタイムで

OpenAI の新しい音声モデル3種発表ー推論・翻訳・文字起こしをリアルタイムで
文字サイズ

OpenAI は 2026 年 5 月 7 日、音声対話に特化した API「 Realtime API 」向けに、3つの新しい AI モデルを発表しました。あわせて同 API はこれまでのテスト段階を終え、正式サービスとして一般公開されています。ビジネス用途への本格導入を検討していた企業にとって、動きやすくなる節目といえます。

最初のモデル「 GPT-Realtime-2 」は、最新世代の GPT-5 に相当する高い推論性能を音声対話に持ち込んだモデルです。会話の文脈を保持できる量が従来の4倍に拡大されており、複数の処理を同時並行で進めることもできます。また、応答の「賢さ」を5段階で調整できるため、簡単なやり取りでは素早く返答し、難しい質問には時間をかけて考えるといった使い分けが可能です。不動産情報サービスの Zillow は、このモデルを採用することで、対応の難しい電話問い合わせの成功率が 69 % から 95 % に改善したと報告しています。

2つ目の「 GPT-Realtime-Translate 」は、会話しながらリアルタイムで翻訳を行うモデルです。 70 以上の言語の音声を受け取り、 13 言語で訳して返すことができます。地域ごとのなまりや専門用語にも対応しており、インドの多言語音声サービスを手がける BolnaAI は、従来のモデルと比べて聞き取り誤りが 12.5 % 減ったと述べています。料金は1分あたり $0.034(約 5.1 円)と、従来の企業向け翻訳サービスと比べて大幅に安く設定されています。

3つ目の「 GPT-Realtime-Whisper 」は、話しながらリアルタイムで文字に変換するモデルです。従来の Whisper は録音済みの音声を後から書き起こすものでしたが、今回はライブ配信や会議中のその場での字幕生成といった用途向けに作り直されています。速さと精度のバランスも設定で調整できます。

これまで企業が音声 AI を構築する際は、文字起こし・判断・音声合成のそれぞれに別の専門サービスを組み合わせるのが一般的でした。今回の3モデルはその工程を大幅に集約できる可能性があり、既存の音声 AI 関連サービスへの影響も出てくるとみられます。 GPT-Realtime-2 の料金は、音声入力 100 万トークンあたり $32(約 4,800 円)、出力は $64(約 9,600 円)です。