ElevenLabsが先日発表した音声生成機能「Voice Design 2.0」は、テキストプロンプトを使用して独自のAI音声を生成できる画期的な機能です。ユーザーは音声の年齢、アクセント、トーン、キャラクター性などを文章で指定するだけで、わずか数秒で望みの音声を作成することができます。
例えば、「怖い魔女のささやくような声」や「深くうなるような声の大きな雪男」、「かすれた深い声の、プロフェッショナルでリラックスした、自信に満ちたイギリス人男性」といった具合に、ユーザーの創造力次第で実に多彩な音声を生み出せるのが特徴です。
Voice Design 2.0には、ピッチやトーンの調整、発話速度やリズムの制御、アクセントや方言の設定、感情表現の調整など、きめ細かな音声カスタマイズ機能が備わっています。こうした直感的な操作性により、技術的な専門知識がなくても簡単に利用できるようになっています。
この技術は、アニメーション制作やゲームの音声、オーディオブックやポッドキャスト、バーチャルアシスタントやチャットボットなど、幅広い用途への活用が期待されます。現実の人間の声を模倣するだけでなく、エルフやロボットといった架空のキャラクター音声も生成可能なため、ゲーム開発やオーディオコンテンツ制作の現場において非常に活用範囲の広い技術だと思います。