Cartesia、音声合成「Sonic-3.5」と音声認識「Ink-2」を同時リリース

2026年6月17日

投稿者: aiupdate

Cartesia、音声合成「Sonic-3.5」と音声認識「Ink-2」を同時リリース

文字サイズ

米スタンフォード大 AIラボからスピンアウトし、音声 AI を手がけるスタートアップの Cartesia は、テキスト読み上げモデル（TTS）「Sonic-3.5」と音声認識モデル（SST)「Ink-2」を同時に公開しました。リリースから約 1 週間以内に、第三者機関 Artificial Analysis が運営する音声モデルの評価ランキングで、両モデルがそれぞれの部門で 1 位を獲得しています。TTS と STT の両カテゴリで同時に首位に立ったのは、現時点で Cartesia のみです。

Sonic-3.5 は音声合成の評価ランキングで首位となり、Google の競合モデルなどを上回りました。音声が出力されるまでの時間はエンドツーエンドで 82 ミリ秒と非常に短く、自然な話し方や感情表現も改善されています。対応言語は 42 言語・500 種類以上の音声から選択でき、日本語を含む複数言語での認識精度も大きく向上しました。あるユーザー企業は Sonic-3.5 への切り替え後にコンバージョン率が 2.9 %、顧客エンゲージメントが 12.2 %それぞれ改善したと報告しています。

Ink-2 は音声認識の精度評価で最も低い誤り率を達成し、ストリーミング部門で 1 位となりました。電話番号・日付・金額といった数値情報の読み取りが正確で、雑音の多い環境や電話回線越しの音声、さまざまなアクセントにも対応しています。また、会話の区切りを自動で判定する機能を標準搭載しているため、従来は別途用意が必要だった音声区間検出ツールを追加導入しなくて済みます。

両モデルを組み合わせることで、音声の出力と文字起こしをそれぞれ 100 ミリ秒以下で処理できます。これはリアルタイムで人と会話する AI エージェントの開発において、体感上のタイムラグをほぼ感じさせないレベルの速度です。同社は独自のアーキテクチャを採用しており、「既存の研究の延長ではなく、ゼロから設計したモデル」と説明しています。

両モデルはすでに利用可能で、使った分だけ課金されるプランで提供されています。同社はこれまでに Kleiner Perkins・Index Ventures・Lightspeed・NVIDIA などから総額 1 億 9,100 万ドル（約 286 億円）を調達しており、音声合成と音声認識を一つの API にまとめて提供することで、開発者が複数のサービスを組み合わせる手間を省けるアプローチが注目を集めています。

Cartesia、音声合成「Sonic-3.5」と音声認識「Ink-2」を同時リリース

関連記事

xAI、音声AIモデル「Grok Voice Think Fast 2.0」を発表

OpenAI、次世代音声モデル「GPT-Live」を世界展開開始

OpenAI の新しい音声モデル3種発表ー推論・翻訳・文字起こしをリアルタイムで