【TOOLS】Gladia(文字起こし:評価★★★★★)

投稿者:
  • 総合評価:★★★★★
  • 日本語文字起こし精度:★★★★☆

フランス・パリ発の AI スタートアップ「 Gladia 」の文字起こし( Speech-to-Text )サービスを試してみました。2022 年に設立されたこの企業は、高精度かつ高速な文字起こし技術を武器にグローバル展開を進めている注目のスタートアップです。

実際に使ってみると、日本語のスピーチの文字起こし精度がかなり高いことに驚かされました。若干日本の固有名詞などの認識精度が落ちる場面もありましたが、それ以外はほぼ完璧な文字起こしができています。本来であれば、AI モデルに十分な知識量があれば、これらの固有名詞も補完できると思われますが、現状でも十分に実用レベルです。

Google の Gemini も音声認識の精度は高いと評価されていますが、今回使ってみた限り、Gladia はそれを上回る精度、と感じました。

Gladiaの音声認識には、OpenAIがMITライセンスで公開している音声認識モデル「Whisper」をベースに、独自に改良を加えた「Whisper-Zero」が用いられています。このシステムは、100以上の言語に対応するほか、ハルシネーション(幻覚:誤情報を出力する)を抑える工夫が施されており、高い精度を実現しています。さらに、1 時間分の音声を 60 秒未満で文字起こしできるという、高速な処理性能も大きな特長です。

料金体系も魅力的で、現在は無料で月に 10 時間分を使用することができます。これはヘビーユーザーでなければ、日常的な業務では十分な時間数と言えるでしょう。無料で使える範囲が大きい点は評価ポイントです。

他にも複数話者の自動識別や自動句読点挿入など、編集作業を効率化する付加機能も提供されています。フィラー語(「えーと」や「あー」など)を自動的に削除してくれる点も地味にありがたい機能です。また、API 経由で企業のシステムやサービスへの組み込みも容易です。

筆者独断の評価は星 5つです。非常に高い精度と速度で実用に十分耐えること、そして通常のビジネスで使うのに十分な時間数を無料で使用できる点を高く評価しました。今後、知識ベースを拡充して日本の固有名詞などの認識精度がさらに向上すれば、完璧なサービスになると期待しています。