音声認識・STT アーカイブ

2026年6月17日（水）

2026年6月17日音声生成・TTS/STS 音声認識・STT

Cartesia、音声合成「Sonic-3.5」と音声認識「Ink-2」を同時リリース

米スタンフォード大 AIラボからスピンアウトし、音声 AI を手がけるスタートアップの Cartesia は、テキスト読…

2026年5月9日（土）

2026年5月9日 OpenAI 音声生成・TTS/STS

OpenAI の新しい音声モデル3種発表ー推論・翻訳・文字起こしをリアルタイムで

OpenAI は 2026 年 5 月 7 日、音声対話に特化した API「 Realtime API 」向けに、3つの…

2026年4月28日（火）

2026年4月28日 xAI / SpaceX 音声生成・TTS/STS

xAI、音声AIエージェント「Grok Voice Think Fast 1.0」を発表—企業向けに API 提供開始

イーロン・マスク氏が創業した xAI は 2026 年 4 月 23 日、新しい音声 AI エージェント「Grok Vo…

2026年4月12日（日）

2026年4月12日 Google / DeepMind 音声認識・STT

Google、オフライン対応の音声入力アプリ「AI Edge Eloquent」を iOS 向けに静かにリリース

Google は 2026 年 4 月 6 日、プレスリリースも発表イベントもなく、音声入力アプリ「 Google AI…

2026年4月10日（金）

2026年4月10日 AI Chat Google / DeepMind

Google の新音声 AI モデル「 Gemini 3.1 Flash Live 」が正式発表——主な改善点と提供形態

Google は 2026 年 3 月 27 日、音声によるリアルタイム会話に特化した AI モデル「 Gemini 3…

2025年12月21日（日）

2025年12月21日 Meta 音声認識・STT

Meta、直感的な操作で音声を分離するAIモデル「SAM Audio」を公開

2025年12月16日 Metaが、複雑な音声の中から特定の音だけを分離できる新しいAIモデル「SAM Audio」をリ…

2025年12月15日（月）

2025年12月15日 ElevenLabs Meta

MetaがElevenLabsと提携、InstagramとHorizonで音声AIを本格導入へ

2025年 12 月、AI 音声合成技術のリーディングカンパニーである ElevenLabs は、ソーシャルメディア大手…

2025年9月7日（日）

2025年9月7日 OpenAI 音声生成・TTS/STS

OpenAI、Realtime APIを正式公開：音声対話モデル「gpt-realtime」

OpenAI は、ベータ版で提供されていた Realtime API を正式に一般公開し、新たな音声対話モデル「 gpt…

2025年7月24日（木）

2025年7月24日 NVIDIA 音声認識・STT

NVIDIA 「 Canary-Qwen-2.5B 」、 Hugging Face 音声認識リーダーボードでトップ獲得

NVIDIA が 2025 年 7 月 17 日に発表した新しい英語音声認識モデル「 Canary-Qwen-2.5B …

2025年7月22日（火）

2025年7月22日 Mistral フランス

仏 Mistral 「 Voxtral 」、低コスト&オープンソース音声理解モデルを発表

フランスの Mistral AI が音声認識と理解を両立する、オープンソースかつ低コストな音声 AI モデルファミリー「…

2025年6月26日（木）

2025年6月26日 AIエージェント ElevenLabs

ElevenLabs が音声ファーストの AI アシスタント「11ai」をリリース

AI 音声技術のリーディングカンパニー ElevenLabs は、新しい音声ファーストの AI アシスタント「11ai（…

2025年5月14日（水）

2025年5月14日 NVIDIA 音声認識・STT

NVIDIA、圧倒的な速度を誇る音声認識モデル「Parakeet V2」をオープンソースで公開

NVIDIA は 2025 年 5 月 1 日、完全オープンソースの自動音声認識（ASR）モデル「Parakeet V2…

1 2 »