NVIDIA、圧倒的な速度を誇る音声認識モデル「Parakeet V2」をオープンソースで公開

投稿者:

NVIDIA は 2025 年 5 月 1 日、完全オープンソースの自動音声認識(ASR)モデル「Parakeet V2(正式名称:Parakeet-TDT-0.6B-V2)」をリリースしました。このモデルは英語音声の高精度な文字起こしに特化しており、驚異的な処理速度と商用グレードの精度を両立したことで注目を集めています。

Parakeet V2 の最大の特徴は、その速い処理速度です。1 時間(60 分)の音声をわずか 1 秒で文字起こし可能という、従来モデルの約 50 倍以上の速度を実現しています。音声認識システムの処理速度を表す指標であるリアルタイムファクター(RTF)は 3386 という驚異的な数値を記録し、音声認識の常識を覆す結果となりました。

精度においても、Open-ASR-Leaderboard で業界最高水準となる平均単語エラー率(WER)6.05% を達成。これは OpenAI の Whisper や Microsoft の Phi-4-multimodal などの競合モデルを上回る精度です。自動的に句読点や大文字を追加し、単語レベルのタイムスタンプも正確に生成するため、ビデオ編集や通話分析などの用途にも最適です。

技術的には、FastConformer エンコーダーと TDT(Token and Duration Transducer)デコーダーを組み合わせた最新のアーキテクチャを採用。NVIDIA 独自の「Granary」データセット(約 12 万時間の英語音声データ)で訓練されており、多様な英語話者や状況に対応しています。

また、6 億パラメータという比較的コンパクトな構成で、2GB 程度の RAM があればローカルPC(エッジデバイス)でも動作可能。大規模なクラウド環境だけでなく、ローカル PC や組み込み機器でも利用できる点も大きな特徴です。

さらに注目すべきは、CC-BY-4.0 ライセンスで公開されており、商用・非商用問わず自由に利用・改変・再配布が可能である点です。オープンソースで商用利用も可能な高性能 ASR モデルは希少であり、開発者・スタートアップ・大企業まで幅広い層が自由に活用できることが大きなインパクトとなっています。

応用分野としては、会議やインタビューの自動文字起こし、リアルタイム字幕生成、ボイスアシスタント、音声分析や通話記録の自動化、歌詞の自動生成やメディアアーカイブなど多岐にわたります。

Parakeet V2 は現時点では英語に特化していますが、今後の多言語対応への期待も高まっています。日本語対応を望む声も多く、国内企業によるファインチューニングへの期待も寄せられています。

NVIDIA はこのモデルを Hugging Face や NeMo ツールキットを通じて提供しており、誰でも簡単に試すことができます。(Hugging FaceのSpacesで試用も可能です)GPU ハードウェアだけでなく、AI ソフトウェアエコシステムの主導権も狙う NVIDIA の戦略が、この「超高速・高精度・オープンソース・商用 OK」という四拍子揃ったモデルからうかがえます。