中 MiniMax が 40 言語対応の音声 AI 「 Speech 2.5 」をリリース

投稿者:

中国の AI スタートアップ MiniMax は 2025 年 8 月 7 日、新世代の音声 AI 「 Speech 2.5 」をリリースしました。(デモはこちら)このモデルは 40 言語に対応し、アクセント(訛り)、年齢、感情といった声のニュアンスを再現する機能を備えています。

Speech 2.5 の主な特徴は、 10 秒程度の音声サンプルから話者の声をクローンできる点です。対応言語は中国語、英語、日本語、スペイン語などの主要言語のほか、ブルガリア語、マレー語、ヘブライ語なども新たに追加されています。同社によると、異なる言語間でも話者特有の訛りを保持したまま音声生成が可能だとしています。

技術面では、従来版と比較して発音精度や自然なリズムが改善されたとされています。また、感情表現についても幅広いバリエーションに対応し、コンテキストに応じた音声生成ができるようになったと説明されています。

利用シーンとしては、多言語コンテンツの制作、カスタマーサービス、教育分野などが想定されています。同社の発表では、従来 2 週間要していた少数言語教材の制作が 10 分程度に短縮される事例があるとしていますが、実際の運用における効果については今後の検証が必要でしょう。

料金体系は毎日 4,000 クレジットの無料枠から、月額 5 ドル(約 735 円)の有料プランまで設定されています。ウェブプラットフォームや API 経由での利用が可能で、動画制作、ポッドキャスト、マーケティングなどの分野での活用が見込まれています。

音声 AI 分野では ElevenLabs 、 Play.ht 、 Amazon Polly などの競合サービスが存在しており、各社が技術の向上と差別化に取り組んでいます。発表初期のユーザーレビューや専門家による比較では、 MiniMax の音声クローン精度やコストパフォーマンスについて、競合他社を上回っていると評価は上々のようです。

一方で、高精度な音声クローン技術の普及により、無断での声の複製やディープフェイクといった悪用リスクへの懸念も高まっています。このような技術の発展において、適切な利用ガイドラインの策定と技術的な対策の実装が業界全体の課題となっています。