【TOOLS】Audiobox（音声生成：評価★★★☆☆）

総合評価：★★★☆☆
先行きが不安になる度：★★★★★

先日OpenAIの音声クローニング技術に関するニュースが話題になりましたので、興味を持ち、先行して昨年末に発表されていたMetaの同様の技術、Audioboxを遅ればせながら試してみました。

Audioboxにはいくつかの機能がありますが、今回は特に音声クローニングを試しました。デモでは、画面に表示された短い英文を読み上げるだけで、自分の声でテキストを読み上げてくれます。現在、テキストは125文字に制限されていますが、わずか5〜10秒ほどの音声サンプルから、驚くほど高い精度で声のクローニングが行えました。

やはり実際に試してみると、こうした技術の悪用をどのように防ぐかは大きな課題だと実感します。このレベルで読み上げができてしまうと、しばらく時間が経ってしまえば本人でさえ「あれ？自分がしゃべったかな？」と錯覚してしまうほどです。Audioboxではオーディオ透かしや声紋認証などの対策が施されていますが、完璧とは言えません。音声のディープフェイクが簡単に作れるようになれば、詐欺や偽情報拡散に悪用される恐れがあります。

筆者の独断の評価は星3つ。試験運用段階のデモで、トレーニングデータを制限していることもあり、想定していたよりも高い精度に驚きはしましたが、出力のクオリティはまだそこまで高くはありません。しかし、本格運用が始まれば、精度は飛躍的に向上するでしょう。本人の声と全く区別がつかないレベルになることは容易に想像がつきます。

音声クローニング技術は、利便性と引き換えにプライバシーやセキュリティ面でのリスクが伴います。メリットを最大化しつつ、デメリットを最小化するため、技術の開発と平行して、倫理的・法的な枠組み作りを真剣に議論する必要がありそうです。