Hume AI、テキストの文脈を理解するTTSモデル「 Octave 」をリリース

Hume AI が 2 月 21 日、テキスト音声変換（ TTS ）専用に設計された大規模言語モデル「 Octave 」をリリースしました。従来の TTS システムとは異なり、 Octave はテキストの文脈や感情を理解し、より自然で表現豊かな音声を生成することが可能です。

Octave の最大の特徴は、入力されたテキストの意味を深く理解した上で適切な感情やトーンを付与できる点です。ユーザーは「中世の騎士」や「皮肉っぽい口調の中世の農民」のような詳細な説明から独自の音声を作成できるほか、「もっと興奮した口調で」「恐れて囁くように」といった自然言語指示を使って、リアルタイムで感情や話し方を調整することも可能です。

現在、 Octave には 40 以上のプリセットと音声がライブラリとして用意されており、オーディオブックやポッドキャストなどの長文コンテンツ生成機能もプレビュー段階で提供されています。

Hume AI が実施した内部評価では、 180 人の人間の評価者による比較で、 Octave は業界リーダーの ElevenLabs を上回る結果を示しました。具体的には、音質では 71.6 %、自然さでは 51.7 %、指示との一致では 57.7 % の割合で Octave が優位と評価されています。

Octave は現在、 platform.hume.ai および API を通じて利用可能です。開発者向けには Python と TypeScript の SDK が提供されており、認証処理や型付きインターフェースを通じて信頼性の高い統合が可能になっています。

Hume AI は今後、現在サポートされている英語とスペイン語以外の言語対応を拡大する計画です。また、数週間以内には、わずか 5 秒の音声サンプルから AI 音声を生成できる「 Voice Cloning 」機能のリリースも予定されています。

感情豊かで自然な音声生成を可能にする Octave は、コンテンツ制作、マーケティング、エンターテインメントなど、さまざまな分野での応用が期待されています。