Microsoft 、最大 90 分の長時間音声生成が可能な「 VibeVoice 」をオープンソースで公開

投稿者:

Microsoft は、長文オーディオや複数話者の会話音声を最大 90 分間生成できるオープンソースの「Text-to-Speach( TTS )」モデル「 VibeVoice 」をリリースしました。従来の TTS モデルが数分程度の短い音声生成に留まっていたのに対し、VibeVoice ではポッドキャストやオーディオブック全体を生成できるようになっています。

VibeVoice の最大の特徴は、同時に 4 人までの異なる話者の声を使い分けて自然な会話を生成できる点です。話者ごとの声質・感情・一貫性を長時間にわたって維持し、自然なターン・テイキング(会話の流れ)を実現します。これは大規模言語モデル( LLM )と効率的な音声処理技術の組み合わせにより、長文でも高品質かつ計算効率の高い音声生成を可能にしています。

技術的には、独自の音声処理技術により音声データを大幅に圧縮しながらも、長時間音声の品質と意味を効率的に維持することに成功しています。現在公開されている 1.5B パラメータ版に加え、今後はさらに強力な 7B パラメータ版の公開も予定されており、拡張性の高い設計となっています。

言語サポートは主に英語と中国語に最適化されていて、クロスリンガル(例:英語から中国語)や歌声生成にも対応しています。一方で、それ以外の言語では期待通りの出力が得られない場合があり、背景音や BGM 、複数の話者が同時に発話することには未対応といった制限もあります。

このモデルは MIT ライセンスでオープンソース公開されており、研究者や開発者が自由に利用・改良・活用できるようになっています。ただし、悪用を防ぐためのルールは厳しく設定されており、なりすましや虚偽の情報拡散、本人確認システムの回避などの用途は明確に禁止されています。また安全対策として、生成音声には AI が作成したものだとわかる音声メッセージや識別マーク(透かし)が組み込まれ、利用記録も保存される仕組みになっています。

実用面では、推奨環境として 8GB の VRAM (例: RTX 3060 )があれば十分実行可能で、無料でお試し可能な「公開デモサイト」も提供されています。「 https://vibevoice.info/ 」では、登録なしで簡単に体験してみることができます。