韓国の2人の大学生が開発した革新的TTS「Dia」、ElevenLabsを超える性能をオープンソースで公開

韓国のスタートアップ Nari Labs が 2025 年 4 月、画期的なオープンソースの音声合成（Text-to-Speech、TTS）モデル「Dia」をリリースしました。この 1.6 億パラメータのモデルは、ElevenLabs や Sesame といった商用大手モデルを上回る性能を持ちながら、2 人の大学生が外部資金ゼロで開発したという点で注目を集めています。

Dia の最大の特徴は、感情表現の豊かさにあります。笑い声、咳、ため息といった非言語的な表現を (laughs) や (coughs) などのタグを使って自然に音声化できる点で、感情表現という面では従来のモデルを大きく上回っています。ElevenLabs や Sesame では、こうした表現をテキストで「haha」などと置き換えてしまうのに対し、Dia は実際に笑い声や咳の音を生成します。また、パニックや緊張感といった複雑な感情もリアルに再現可能です。

モデルは Apache 2.0 ライセンスで公開され、商用利用も含めて自由に使用できます。動作には PyTorch 2.0+ と CUDA 12.6、約 10GB の GPU VRAM が必要ですが、今後は CPU 対応や量子化版のリリースも予定されています。GitHub や Hugging Face で公開されており、Gradio ベースのデモ UI も提供されているため、開発者は簡単に導入・実験することができます。

開発者の Toby Kim 氏は、音声 AI について学び始めてわずか 3 か月でこのモデルを構築したといいます。Google NotebookLM のポッドキャスト生成機能に感銘を受け、「もっと自由で自然な対話音声がほしい」という動機から開発を決意。既存の TTS API を全て試した末、自作に至ったというエピソードからも、彼らの熱意が伝わってきます。