Mistral、テキスト読み上げモデル「Voxtral TTS」を公開

フランスの AI 企業 Mistral は 2026 年 3 月 26 日、同社初となるテキスト読み上げモデル「Voxtral TTS」を公開しました。テキストを自然な音声に変換するいわゆる TTS（Text-to-Speech）技術で、複数言語への対応と高い音質を両立している点が特徴です。

モデルは比較的小型で、動作に必要なメモリは約 3GB と省メモリです。量子化と呼ばれる軽量化処理を施せばスマートフォンやノート PC 上でも動かせるため、クラウドに依存せず自社環境で運用したい企業にとっても現実的な選択肢になります。

注目の機能が「音声クローニング」です。特定の人物の声を 3 秒ほど録音するだけで、その声のアクセントやイントネーション、話し方の癖までを再現した音声を生成できます。対応言語は英語・フランス語・ドイツ語・スペイン語・オランダ語・ポルトガル語・イタリア語・ヒンディー語・アラビア語の 9 言語で、例えばフランス語話者の声のサンプルを使って英語のテキストを読み上げると、フランス語なまりの英語音声が出力されます。多言語コンテンツ制作や国際向けカスタマーサービスへの活用が見込まれます。

性能面では、Mistral が社内で行った評価によると、競合サービスの ElevenLabs Flash v2.5 と比較したユーザー選好率は約 63% で、自社製品が支持される結果となりました。ただし、Google の Gemini 2.5 Flash TTS との感情表現の比較では Gemini が約 65% の支持を集めており、すべての面で上回っているわけではありません。また、これらはあくまで Mistral 社内の評価であり、独立した第三者機関による検証結果はまだ公表されていない点は念頭に置く必要があります。

価格は API 経由で 1,000 文字あたり 0.016 ドル（約 2.4 円）の従量課金です。また、研究・個人利用を対象としたオープンウェイト版も公開されていますが、商業利用には別途ライセンスが必要で、以前の公開モデルと比べてライセンス条件が厳しくなったことを開発者コミュニティが指摘しています。

Mistral はこのモデルを、企業が自社サーバーや端末で完全に管理・運用できる「エンタープライズ向けオープン TTS モデル」として訴求しています。音声 AI 市場は 2026 年時点でグローバル 220 億ドル（約 3 兆 3,000 億円）規模に達するとも言われており、企業の音声 AI 導入コストを下げる存在として注目されます。