ElevenLabs が表現力豊かなテキスト読み上げモデル「 Eleven v3 」を発表

AI 音声合成スタートアップの ElevenLabs は、新しいテキスト読み上げ（ TTS ）モデル「 Eleven v3 （アルファ版）」を発表しました。同社は「これまでで最も表現力豊かなモデル」と位置づけており、従来の AI 音声合成の限界を越えるべくいくつかの新しい機能を搭載しています。

Eleven v3 の最大の特徴は、感情やトーンを細かく制御できる「エモーショナル・オーディオタグ」機能です。テキスト内に「[whispers]（ささやき）」「[laughs]（笑い）」「[excited]（興奮）」「[sad]（悲しみ）」などのタグを埋め込むことで、音声の感情表現や非言語的な反応を自在にコントロールできます。これにより、従来のロボット的な読み上げから、声優のような自然な演技表現が可能になりました。

技術面でも大幅な進歩を遂げています。新しいアーキテクチャにより、文脈の深い理解とより自然なリズム、ストレス、イントネーションを実現しており、人間らしい表現力が格段に向上しています。また、70 以上の言語に対応し、従来の約 30 言語から大幅に拡大しました。ヒンディー語、タミル語、ベンガル語など、インドの主要言語も含まれており、世界人口の 90% をカバーする言語に対応しています。

もう一つの注目機能が「マルチスピーカー・ダイアログ」です。新しい「 Text to Dialogue API 」を使用することで、一つのスクリプト内で複数の話者による自然な会話を生成できます。話者の切り替えや感情の移行、会話の中断なども自然に処理でき、映画やゲーム、オーディオブックなどの制作現場での活用が期待されています。

現在、 Eleven v3 は研究プレビュー段階として提供されており、 ElevenLabs のウェブサイトを通じて利用可能です。 6 月末まで UI ベースの利用が 80% 割引のプロモーション価格で提供されており、早期利用者にとって魅力的な価格となっています。 API の一般公開は近日中に予定されており、開発者がアプリやツールに統合できるようになります。