OpenAI 、次世代の音声 AI モデルをリリースー音声認識と合成が大幅進化

OpenAI は 2025 年 3 月 20 日、次世代の音声モデルを API ベースでリリースしました。この新モデルは、テキストから音声への変換（Text-to-Speech, TTS）および音声からテキストへの変換（Speech-to-Text, STT）機能を大幅に向上させ、開発者が AI の話し方をより細かくカスタマイズできる新たな可能性を提供します。

OpenAI が今回導入した主要な新モデルは 3 つあります。まず音声「認識」モデルとして「 gpt-4o-transcribe 」と軽量版の「 gpt-4o-mini-transcribe 」があります。これらは従来の Whisper モデルを上回る性能を持ち、特にアクセントの強い発音や騒がしい環境、異なる話速での認識精度が向上しています。強化学習や多様な高品質音声データセットによる中間トレーニングが、この精度向上を支えています。

次に、音声「合成」モデルとして「 gpt-4o-mini-tts 」も登場しました。このモデルの特筆すべき点は「ステアラビリティ（steerability）」の向上です。開発者は単に「何を話すか」だけでなく「どう話すか」を細かく指示できるようになりました。例えば「穏やかなカスタマーサービス担当者」や「物語風の語り」といった話し方を設定できます。現時点ではあらかじめプリセットされた音声のみ利用可能ですが、将来的にはカスタム音声の作成も予定されています。

これらのモデルはすべて OpenAI の API を通じて提供され、「 Agents SDK 」との統合により、音声対応のインテリジェントなエージェントを簡単に構築できるようになっています。わずか数行のコードで既存のテキストベースの GPT-4o アプリケーションに音声機能を追加できるため、開発者の利便性も高まります。

応用例としては、コールセンターでの自然な音声応答によるカスタマーサービス、ポッドキャストや動画の自動音声生成、会議の議事録作成、視覚障害者向けの音声支援ツールなど、幅広い分野での活用が期待されています。OpenAI はデモプラットフォーム「 OpenAI.fm 」も立ち上げ、ユーザーが TTS 機能を試せる環境も提供しています。

このリリースは、音声分野での生成 AI の競争が激化する中で、OpenAI が音声技術の最前線に立つための重要な一歩と言えるでしょう。