フランスの Mistral AI が音声認識と理解を両立する、オープンソースかつ低コストな音声 AI モデルファミリー「 Voxtral 」を発表しました。これまで高価な商用 API サービスに頼らざるを得なかった高品質音声認識・理解 AI に、新たな選択肢を提供するリリースです。
Voxtral は、本格的な商用・大規模アプリケーション向けの「 Voxtral Small 」( 24B パラメータ)と、ローカルやエッジデバイスでの実装に最適な「 Voxtral Mini 」( 3B パラメータ)の 2 つのモデルで構成されています。両モデルとも Apache 2.0 ライセンスで公開されており、誰でも自由に利用・改良できます。
特筆すべきは圧倒的な低コスト実現です。 API 経由での利用料金は 1 分あたり 0.001 ドル(約 0.15 円)で、他社サービスと比べて半額以下という価格設定になっています。文字起こしに特化した「 Voxtral Mini Transcribe 」では、さらに低価格での利用が可能です。
機能面では、 32,000 トークンの長文コンテキストにより、最大 30 分の音声認識、または最大 40 分の内容理解に対応しています。従来は別々の ASR (自動音声認識)システムと言語モデルを組み合わせる必要がありましたが、 Voxtral では 1 つの入力で音声の要点整理や質問回答がネイティブに処理できます。
多言語対応も充実しており、英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語など世界主要言語の自動検出と高精度認識が可能です。また、音声から直接バックエンド API やワークフローを呼び出せる関数呼び出し機能も搭載されています。
性能面では、英語および多言語ベンチマークで現行最強のオープンソースモデル Whisper large-v3 を上回る結果を達成しています。 GPT-4o mini Transcribe や Gemini 2.5 Flash よりも幅広いタスクで優れたパフォーマンスを示し、 ElevenLabs Scribe 相当の高精度を半額以下で実現しています。
企業向けの機能も充実しており、プライバシーに配慮したオンプレミス環境での導入や、複数の GPU を活用した高速処理にも対応しています。医療、法務、カスタマーサポートといった特定分野に合わせたカスタマイズも可能で、将来的には話者の識別、感情の把握、発話の詳細な区切り、単語レベルのタイムスタンプなどの機能も追加される予定です。
利用方法も多様で、 Hugging Face からモデルをダウンロードしてローカル実行したり、 Mistral の Le Chat ボイスモードでテストしたり、単一の API コールでアプリケーションに組み込んだりすることができます。
Voxtral の登場により、これまで高エラー率のオープンソース ASR システムか、高コストな商用 API かという限られた選択肢しかなかった音声 AI 分野に、高性能でコスト効率の良い第三の道が開かれました。 AI 音声サービスの民主化と発展を大きく加速させる、注目すべきリリースといえるでしょう。