MiniMax が「 Speech-02 」をリリース、テキストからリアルな音声生成

投稿者:

2021年に創業した中国・上海に本拠を置く AI スタートアップの MiniMax が「 Speech-02 」をリリースしました。Speech-02 はテキストから音声への変換( TTS: Text-to-Speech )技術における最新モデルで、30 以上の言語で非常にリアルな音声生成が可能です。このモデルは、特にオーディオブックやポッドキャストの制作など、クリエイティブな現場にとって有用なツールとなることが期待されています。

Speech-02 の最大の特徴は、そのリアルさにあります。X 上では、トーン、感情、流暢さを自然に再現する能力が従来の TTS モデルと一線を画している、との声が上がっています。また、30 以上の言語に対応し、各言語で自然な発音とアクセントを実現する多言語対応も大きな強みです。

技術面では、一度に最大 20 万文字という大容量テキスト処理が可能で、特に長編のオーディオブック制作に適しています。さらに「 Read Anything 」機能により、ローカルファイルやウェブ URL をアップロードするだけで様々なコンテンツを音声化できる利便性も提供しています。

その応用範囲は広く、オーディオブックやポッドキャスト制作はもちろん、企業向けのカスタマーサポート自動化や多言語対応の音声ガイダンスなど、ビジネス用途での活用も期待されています。

業界的には、OpenAI の「 Whisper 」や ElevenLabs の「 Scribe 」など他の先進的な音声モデルとの競争が激化する中、MiniMax は対応する言語の多さと大容量の処理能力で差別化を図ろうとしています。


筆者の視点:実際に試用してみたところ、確かに多言語での自然さが際立っていると感じました。これまでElevenLabsなどの先行する音声生成モデルも多言語対応をうたってはいましたが、英語以外の発音は不自然で、AI音声だとすぐに分かるレベルのものが普通でした。しかし、今回のMinimaxのモデルはそうした従来の流れを覆し、多言語でも非常に自然な発音を売りにしています。

実際に日本語の音声も生成してみたところ、確かに違和感の少ない自然な発音でした。ただし、プリセットで用意されている音声がすべてアニメ風であり、日本語に関してはビジネス用途には適していない印象でした。