【TOOLS】ElevenLabs TTS（評価★★★☆☆）

総合評価：★★★☆☆
特定シーンでの活用（ナレーションなど）：★★★★★

今回は、Eleven Labsが提供するText to Speech（TTS）サービスを紹介します。Eleven LabsのTTSサービスは、最先端の変換技術を活用し、ストーリーテリングに適した自然で人間に近い音声を迅速に生成します。さらに、動画や音声ファイルを基に一定時間学習させることで、特定の人物の発声に似せた独自のTTSモデルをつくることもできます。現在は英語のみ対応しているようです。（＊）

このTTSサービスは、前後の文章の文脈から、どこを強調すべきかを自動で判断しています。そのため、同様のサービスに比べて非常に自然な読み上げが実現されています。筆者が学習済みの音声モデルを試した際も、その自然さを確認することができました。本の朗読などではAmazonのAudibleと遜色のないレベルです。また、笑い声などの表現も再現可能です。

ただし、現状では、淡々と読み上げるのが得意なため、本の朗読やニュース原稿、ナレーションなどに適しています（元々そこを目指しているので当然ですが・・）。

技術的には非常に完成度が高いものの、適用範囲が限定的であることから、筆者の独自評価は星3つです。このサービスを活用すれば、ある特定の分野では無人化が可能なクオリティです。

＊2023年4月29日、英語の他にフランス語・ドイツ語・ヒンディー語・イタリア語・ポーランド後・ポルトガル語・スペイン語の7言語が追加されました。今後も言語の追加はあるかと思いますので、最新の状況は、ElevenLabsのホームページをご参照ください。