Hume AI の「 EVI 3 」、 30 秒で声の個性まで再現する Speech-to-Speech モデルをリリース

投稿者:

Hume AI が 2025 年 7 月 17 日、次世代の Speech-to-Speech モデル「 EVI 3 ( Empathic Voice Interface 3 )」を API 経由でリリースしました。このモデルは、従来のテキスト読み上げ AI を大きく超える機能を実現しています。

EVI 3 の最大の特徴は、わずか 30 秒ほどの音声サンプルから、その人特有のトーン、リズム、イントネーション、話し方の癖、さらには個性やパーソナリティまで再現できることです。単純な声のクローンではなく、まるで本人が話しているかのような自然さを実現しています。

技術的には、音声から音声への直接変換を行う Speech-to-Speech モデルを採用しています。入力音声の特徴や話し方、感情までを忠実に反映した新しい音声を瞬時に生成でき、従来のテキスト経由の音声合成とは一線を画しています。

感情表現の豊かさも大きな特徴です。 AI ながら人間らしい感情、間、強調、「えーっと」などのフィラー語を入れて自然な話しぶりまで表現できます。ユーザーが「皮肉っぽい田舎の人のように」「落ち着いた権威ある教師風で」といった自然言語の指示をするだけで、その特徴を持った声を即座に生成できます。

性能面では、約 300ms という超低遅延を実現しており、商用グレードの会話体験を提供します。また、 Claude 4 、 Gemini 2.5 、 Kimi K2 などの最新大規模言語モデルともシームレスに統合可能で、応答生成の柔軟性と知性を両立しています。

開発者向けには API が公開されており、 200,000 種類を超えるデザイン済み音声から選択するか、新たに自分の声を即座に生成することも可能です。料金は用途に応じて 1 分あたり 0.02 ドル(約 3 円)以下からと、比較的手頃な価格設定になっています。

Hume AI のウェブサイトでは、自分の声を 30 秒アップロードするだけで、 AI がどのようにクローン・再現するかをすぐに体験できる機能が提供されています。実際にデモを見てみましたが、元の声の特徴を驚くほど自然に再現しており、その精度の高さに驚かされます。ユーザーは独自のアプリやボット、サービスへの組み込みも手軽に行えます。

競合他社との比較では、 GPT-4o や Gemini などと比べ、 EVI 3 の方が「共感性」「自然さ」「表現の豊かさ」「応答速度」などで高く評価されたというテスト結果も報告されています。

一方で、誰でも本物そっくりの音声を簡単に作れるため、ディープフェイクや詐欺などの悪用リスクも指摘されています。 Hume AI は責任ある使用を促進するためのガイドラインを設けていますが、今後は AI 音声の倫理ガイドラインや安全対策がより重要になってくるでしょう。

(778文字)

スラッグ: hume-ai-evi3-speech-to-speech-voice-cloning-model

メタディスクリプション: Hume AI「EVI 3」が30秒で声の個性まで再現するS2Sモデルをリリース。感情表現豊かで超低遅延、自然言語指示で多彩な声を生成可能。AIボイス技術の新基準。(128文字)