NVIDIA 「 Canary-Qwen-2.5B 」、 Hugging Face 音声認識リーダーボードでトップ獲得

投稿者:

NVIDIA が 2025 年 7 月 17 日に発表した新しい英語音声認識モデル「 Canary-Qwen-2.5B 」が、 Hugging Face の Open ASR リーダーボードでトップに立ち、業界最先端の音声認識モデルとして注目を集めています。

このモデルの最大の特徴は、従来の自動音声認識( ASR )と大規模言語モデル( LLM )を融合したハイブリッド設計です。単純な音声からテキストへの変換だけでなく、その場で要約や質問応答などの高度な言語処理も実行できる一体型モデルとなっています。

性能面では、 Word Error Rate ( WER )が過去最小の 5.63% を記録し、音声認識の精度で新記録を樹立しました。また、リアルタイム処理能力も 418× リアルタイム( RTFx )という非常に高速な推論が可能で、実用的なアプリケーションでの利用に十分な性能を発揮します。

技術的には、 FastConformer エンコーダと Qwen3-1.7B デコーダを組み合わせた Speech-Augmented Language Model ( SALM )アーキテクチャを採用しています。 ASR モードでは音声をテキストに変換し、 LLM モードでは音声認識後のテキストを要約や質疑応答などに活用できます。

対応ハードウェアは NVIDIA の A100 、 H100 、 RTX PRO6000 、 GeForce RTX 5090 など幅広い GPU で最適化されており、 Windows や各種 Linux 環境で動作します。入力は 16kHz モノラルの .wav や .flac 音声ファイル、またはテキストプロンプトに対応しています。

また、 CC-BY-4.0 のオープンライセンスで公開されており、商用利用が可能です。これにより企業向けの音声 AI 開発の障壁が取り除かれ、実用的なアプリケーション開発が促進されることが期待されます。

Hugging Face では公式デモが公開されており、アカウント登録不要でブラウザから直接試すことができます。自分の音声ファイル(英語のみ対応)をアップロードし、自動文字起こし、要約、質問応答などの機能を体験できます。

また、開発者向けには NVIDIA NeMo ツールキット経由で完全なレシピと事前学習モデルが公開されており、 PyTorch 2.6+ と最新の NeMo トランクバージョンを使用して独自のアプリケーションに組み込むことが可能です。