フランスの非営利団体Kyutai、音声対応AI『Moshi』公開

投稿者:

フランスの非営利AI研究団体Kyutaiが、音声での自然なやりとりを実現するAIモデル「Moshi」を一般公開し、業界で話題を集めています。このモデルはわずか6ヶ月という短期間で開発されたとされています。5月にデモが公開されて話題となったOpenAIのGPT-4oは、セキュリティ強化などの理由でリリースが遅れていて、それに先行した形となり、注目された、という経緯があります。

Moshiの特徴は、滑らかで自然な表現力豊かな音声でAIとコミュニケーションができる点です。デモを見た限り、確かに従来のモデルよりもスムーズで自然な応答が可能です。コーチやコンパニオンとしての利用、ロールプレイでのキャラクター表現など、幅広い応用が期待されています。

さらに、Moshiはコンパクトで、オフラインデバイスでの安全な実行が可能という点も注目に値します。プライバシーやセキュリティの観点から、ローカルでAIを動作させることへの需要が高まっている現在、この特徴は評価すべきポイントです。

しかし、Kyutaiの主張には若干の誇張があるようです。「世界初の試み」という触れ込みですが、Humeなど感情表現を取り入れた応答モデルがすでに無料で公開されています。また、GPT-4oと比較して「同等レベル」というのもデモを見る限り少し言い過ぎかもしれません。

それでも、Kyutaiの取り組みには評価すべき点が多くあります。特筆すべきは、開発開始からわずか6ヶ月でこのレベルのモデルを完成させたスピード感と、オープンソースで公開している点です。Kyutaiは、Moshiのコードとモデルの重みに関しても間もなく無料で公開する予定であり、これにより研究者や開発者がこの技術を深く研究し、ニーズに合わせて修正・拡張・特化することが可能になります。

このオープンソース化の流れは、AIブームの成果が一部の企業に独占されることを防ぎ、コミュニティ全体の進化を促進する上で極めて重要です。Kyutaiの姿勢は、コンピュータサイエンスの精神を引き継ぐものとして敬意を表すべきでしょう。