Nvidia、ヨーロッパ 25 言語に対応した音声データセット Granary をオープンソースで公開

投稿者:

Nvidia は 2025 年 8 月 15 日、大規模なマルチリンガル音声データセット「 Granary 」をオープンソースとして公開しました。このデータセットは約 100 万時間分の音声データを収録し、ヨーロッパの 25 言語に対応した音声 AI 開発を支援します。

Granary データセットは、約 65 万時間が音声認識用、約 35 万時間が音声翻訳用として構成されています。対象言語は EU の 24 公式言語に加え、ロシア語とウクライナ語を含む 25 のヨーロッパ言語を網羅しています。クロアチア語、エストニア語、マルタ語など、これまで十分なデータが不足していた言語もカバーしており、言語の多様性をサポートする包括的な内容となっています。

データセットの開発にあたっては、カーネギーメロン大学とイタリア・トレントに拠点を置く研究機関 Fondazione Bruno Kessler と共同で取り組みました。Nvidia の NeMo Speech Data Processor ツールキットを用いて新しいデータ処理システムを開発し、人手での作業を大幅に削減しながら、生の音声データを AI 学習に適した高品質なデータに自動変換することを実現しています。この処理パイプラインも GitHub でオープンソース化されています。

特筆すべきは、Granary の学習効率の高さです。研究によると、他の一般的なデータセットと比較して、音声認識や翻訳で同等の精度を達成するのに必要な学習データ量が約半分で済むことが確認されています。これにより、効率的で高精度な AI モデルの開発が可能になります。

Granary と併せて、2 つの新しい AI 音声モデルも公開されました。「 Canary-1b-v2 」は 10 億パラメータ( 1B )の精度重視モデルで、25 言語の高精度認識と英語と各言語間の翻訳に対応しています。3 倍の規模のモデルに匹敵する品質を提供しながら、推論速度は最大 10 倍高速を実現しています。

もう一つの「 Parakeet-tdt-0.6b-v3 」は 6 億パラメータ( 0.6B )の軽量モデルで、リアルタイム処理や大容量処理向けに設計されています。24 分の音声を 1 回の推論で処理でき、入力言語を自動検出する機能を備えています。両モデルとも、句読点や大文字化、単語レベルのタイムスタンプを正確に提供します。

この取り組みの背景には、世界に約 7,000 ある言語のうち、AI が対応している言語がごくわずかであるという課題があります。Granary は特にデータが不足しがちな言語に対応することで、言語の壁によるデジタル格差を解消し、多様な言語コミュニティ向けの音声技術開発を可能にします。

Granary データセットと新モデルは、Hugging Face や GitHub で公開されており、商用・非商用の両方で利用可能です。詳細な研究論文は、2025 年 8 月 17 日から 21 日にオランダで開催される Interspeech カンファレンスで発表される予定です。

Nvidia は今回、データセットだけでなく、データ処理の手法も公開することで、世界の音声 AI 開発者コミュニティのイノベーションを加速させることを可能にしました。この貢献は大きいと思います。