ElevenLabs、Speech-To-Textモデル「Scribe」を発表、多言語対応と高精度が特徴

投稿者:

ElevenLabs が新たな自動音声認識( ASR )モデル「 Scribe 」をリリースしました。同社はこれを「世界で最も正確」な Speech-to-Text 技術と位置づけており、Google の Gemini 2.0 Flash や OpenAI の Whisper v3 といった業界をリードする競合モデルを複数の言語で上回る性能を示していると主張しています。

Scribe の最大の特徴は、99 言語以上をサポートする多言語対応能力です。特に英語では 97% 、イタリア語では 98.7% という高い精度を実現し、25 の言語において単語エラー率 5% 未満という高水準の認識精度を達成しています。セルビア語やカントン語、マラヤーラム語など、従来のモデルが苦手としてきた言語でも優れた性能を発揮するとのことです。

さらに、複数の話者が会話する場合に最大 32 人まで識別できる「話者ダイアライゼーション」機能や、字幕作成などに役立つ単語レベルのタイムスタンプ機能、笑い声や拍手などの非音声イベントを自動検出するタグ付け機能なども搭載されています。開発者向けには、JSON 形式で整理されたトランスクリプトを提供するなど、実用性を高める工夫も見られます。

FLEURS や Common Voice といった標準的なデータセットを使ったベンチマークテストでは、Scribe は Gemini 2.0 Flash 、Whisper v3 、Deepgram Nova-3 など競合モデルと比較して低い単語エラー率を記録。特にイタリア語では 1.3% 、英語では 3.3% という際立った精度を示しています。

ElevenLabs はこれまで Text-to-Speech (音声合成)や AI による声のクローニング技術で知られており、Spotify との AI ナレーション提携など音声生成技術で評価を得てきました。Scribe はそんな同社が初めて単独製品として提供する Speech-to-Text モデルです。2025 年 1 月に 1 億 8000 万ドルの資金調達を達成し企業価値が 33 億ドルに達したタイミングでの発表となり、AI 技術のさらなる拡大を示す動きといえます。

Scribe の利用料金は 1 時間あたり 0.40 ドルで、競合サービスと比較して競争力のある価格設定となっています。現在は事前録音された音声のみに対応していますが、近日中に低遅延のリアルタイム版もリリース予定とのことで、会議のライブ文字起こしや即時音声メモなどへの活用も期待されています。

ElevenLabs の CEO 、Mati Staniszewski 氏は、「単にコンテンツを生成するだけでなく、会話をより深く理解すること」を Scribe の開発目的として挙げています。この革新的な技術は、ジャーナリズムや学術研究をはじめ、正確な文字起こしが重要な分野での作業効率向上や、グローバルなコミュニケーションツールとしての可能性が広がっており、音声認識市場での新たな競争をもたらすと注目されています。