米スタンフォード大 AIラボからスピンアウトし、音声 AI を手がけるスタートアップの Cartesia は、テキスト読み上げモデル(TTS)「Sonic-3.5」と音声認識モデル(SST)「Ink-2」を同時に公開しました。リリースから約 1 週間以内に、第三者機関 Artificial Analysis が運営する音声モデルの評価ランキングで、両モデルがそれぞれの部門で 1 位を獲得しています。TTS と STT の両カテゴリで同時に首位に立ったのは、現時点で Cartesia のみです。
Sonic-3.5 は音声合成の評価ランキングで首位となり、Google の競合モデルなどを上回りました。音声が出力されるまでの時間はエンドツーエンドで 82 ミリ秒と非常に短く、自然な話し方や感情表現も改善されています。対応言語は 42 言語・500 種類以上の音声から選択でき、日本語を含む複数言語での認識精度も大きく向上しました。あるユーザー企業は Sonic-3.5 への切り替え後にコンバージョン率が 2.9 %、顧客エンゲージメントが 12.2 %それぞれ改善したと報告しています。
Ink-2 は音声認識の精度評価で最も低い誤り率を達成し、ストリーミング部門で 1 位となりました。電話番号・日付・金額といった数値情報の読み取りが正確で、雑音の多い環境や電話回線越しの音声、さまざまなアクセントにも対応しています。また、会話の区切りを自動で判定する機能を標準搭載しているため、従来は別途用意が必要だった音声区間検出ツールを追加導入しなくて済みます。
両モデルを組み合わせることで、音声の出力と文字起こしをそれぞれ 100 ミリ秒以下で処理できます。これはリアルタイムで人と会話する AI エージェントの開発において、体感上のタイムラグをほぼ感じさせないレベルの速度です。同社は独自のアーキテクチャを採用しており、「既存の研究の延長ではなく、ゼロから設計したモデル」と説明しています。
両モデルはすでに利用可能で、使った分だけ課金されるプランで提供されています。同社はこれまでに Kleiner Perkins・Index Ventures・Lightspeed・NVIDIA などから総額 1 億 9,100 万ドル(約 286 億円)を調達しており、音声合成と音声認識を一つの API にまとめて提供することで、開発者が複数のサービスを組み合わせる手間を省けるアプローチが注目を集めています。
