- 総合評価:★★★☆☆
- 特定シーンでの活用(ナレーションなど):★★★★★
今回は、Eleven Labsが提供するText to Speech(TTS)サービスを紹介します。Eleven LabsのTTSサービスは、最先端の変換技術を活用し、ストーリーテリングに適した自然で人間に近い音声を迅速に生成します。さらに、動画や音声ファイルを基に一定時間学習させることで、特定の人物の発声に似せた独自のTTSモデルをつくることもできます。現在は英語のみ対応しているようです。(*)
このTTSサービスは、前後の文章の文脈から、どこを強調すべきかを自動で判断しています。そのため、同様のサービスに比べて非常に自然な読み上げが実現されています。筆者が学習済みの音声モデルを試した際も、その自然さを確認することができました。本の朗読などではAmazonのAudibleと遜色のないレベルです。また、笑い声などの表現も再現可能です。
ただし、現状では、淡々と読み上げるのが得意なため、本の朗読やニュース原稿、ナレーションなどに適しています(元々そこを目指しているので当然ですが・・)。
技術的には非常に完成度が高いものの、適用範囲が限定的であることから、筆者の独自評価は星3つです。このサービスを活用すれば、ある特定の分野では無人化が可能なクオリティです。
*2023年4月29日、英語の他にフランス語・ドイツ語・ヒンディー語・イタリア語・ポーランド後・ポルトガル語・スペイン語の7言語が追加されました。今後も言語の追加はあるかと思いますので、最新の状況は、ElevenLabsのホームページをご参照ください。