SesameのAI音声チャット、人間らしさの「不気味の谷」を越える

Oculus の共同創設者 Brendan Iribe が率いる新興 AI 企業 Sesame が、AI の音声技術において画期的な進歩を遂げる発表をしました。立ち上げから長らくステルスモードで開発を続けていた同社は、2025 年 2 月に「 Conversational Speech Model （ CSM ）」と呼ばれる新しい音声 AI モデルのデモを公開し、業界に衝撃を与えています。

CSM の最大の特徴は、驚くほど自然な人間らしい会話能力です。このモデルは、テキストと音声を同時に処理する統合ニューラルネットワークを採用し、最大モデルは 830 億のパラメーターを持ち、100 万時間の英語音声データで訓練されています。Meta の Llama アーキテクチャをベースにした技術により、「 Maya 」と「 Miles 」という 2 つの AI アシスタントの声が実装されており、会話の文脈をリアルタイムで理解し、感情的なニュアンスに応じて声のトーンやリズムを自然に調整することができます。

このスタートアップの出資には著名投資家が名を連ねており、Andreessen Horowitz （ a16z ）がシリーズ A ラウンドをリードし、Spark Capital や Matrix Partners など、かつて Oculus VR に投資していたベンチャーキャピタルも出資しています。

ユーザーの反応は賞賛と不安が入り混じったものとなっています。多くのユーザーが AI の人間らしさに驚きを示す一方で、技術ジャーナリストの Mark Hachman は、AI の声が知人を思い出させ「深く不安を感じた」と述べるなど、「不気味の谷」を越えたその自然さへの懸念も表明されています。さらに驚くべきことに、一部のユーザーは AI との会話で感情的なつながりを感じたと報告しており、映画「 her 」のような世界が現実に近づいていることを示唆しています。

Sesame は今後、AI を搭載したメガネを開発中であり、常時利用可能な AI コンパニオンの実現を目指しています。また、将来的にはモデルのコア部分をオープンソース化する計画も明らかにしています。