Speech-to-Text（S2T：音声認識）アーカイブ

NVIDIA 「 Canary-Qwen-2.5B 」、 Hugging Face 音声認識リーダーボードでトップ獲得

NVIDIA が 2025 年 7 月 17 日に発表した新しい英語音声認識モデル「 Canary-Qwen-2.5B 」が、 Hugging Face の Open ASR リーダーボードでトップに立ち、業界最先端の音

フランスの Mistral AI が音声認識と理解を両立する、オープンソースかつ低コストな音声 AI モデルファミリー「 Voxtral 」を発表しました。これまで高価な商用 API サービスに頼らざるを得なかった高品質

NVIDIA は 2025 年 5 月 1 日、完全オープンソースの自動音声認識（ASR）モデル「Parakeet V2（正式名称：Parakeet-TDT-0.6B-V2）」をリリースしました。このモデルは英語音声の高

フランス・パリ発の AI スタートアップ「 Gladia 」の文字起こし（ Speech-to-Text ）サービスを試してみました。2022 年に設立されたこの企業は、高精度かつ高速な文字起こし技術を武器にグローバル展

ElevenLabs が新たな自動音声認識（ ASR ）モデル「 Scribe 」をリリースしました。同社はこれを「世界で最も正確」な Speech-to-Text 技術と位置づけており、Google の Gemini