OpenAIは、わずか15秒の音声サンプルから実在する人物の声を模倣できる高度な音声合成ツール「Voice Engine」を開発しました。現在、同ツールは限定的なプレビュープログラムの中で、ヘルスケアやアクセシビリティ、責任あるメディアなどの「低リスク」のユースケースに焦点を当てた少数のパートナー企業に提供されています。
Voice Engineは、話者ごとのカスタムトレーニングを必要とせず、音声サンプルとテキストを分析して一致する音声を生成します。これにより、コストを抑えることができますが、カスタマイズオプションは競合他社に比べて少ないという指摘もあります。
OpenAIは、Voice Engineの悪用を防ぐために、音声に透かし(ウォーターマーク)を入れたり、パイロットプログラム参加者を監視したりするなど、責任ある利用を徹底しています。また、Voice Engineのコードをオープンソース化する可能性もあります。
Voice Engineが一般公開されれば、現在競合がひしめいている音声合成市場に大きな影響を与える可能性があります。悪用の可能性が高いことから、OpenAIは、この強力なツールがもたらす可能性を探りつつ、責任ある利用を確保するために試行錯誤しています。ただ、技術としてそんなに目新しいものではないので、いずれ誰かが公開してしまうことを考えると、今後この手の技術をどう規制していけばいいのか、後追いにはなってしまいますが、真剣に議論していく必要があります。
2件のコメント
コメントは受け付けていません。