ElevenLabs は、同社の AI 音声技術をより活用しやすくするため、公式の Model Context Protocol(MCP)サーバーを公開しました。この統合により、Claude や Cursor などのプラットフォームは、シンプルなテキストプロンプトだけで ElevenLabs の音声プラットフォーム全体にアクセスできるようになります。
新たに公開された MCP サーバーは、テキストから音声への変換(Text-to-Speech)、音声クローニング、音声の書き起こし(Transcription)といった高度な機能を備えており、AI ツールがテキスト入力だけで音声生成を行えるようになりました。これにより、音声エージェントによるさまざまな業務の自動化も可能になります。
発表には、音声エージェントが実際にピザを注文する様子を収めたデモ動画も含まれており、技術の実用性を示しています。この MCP サーバーは GitHub 上で公開されており、開発者は自由にアクセス・活用できます。
MCP は、Anthropic によって開発されたオープンプロトコルで、AI モデルと外部ツールやデータソースとの間に標準化された通信手段を提供します。これにより、複雑な個別統合(N×M 問題)を回避し、AI アプリケーションが多様な外部のサービスとスムーズに連携できるようになります。
技術的には、Claude Desktop、Cursor、Windsurf、OpenAI エージェントなど、MCP に対応したさまざまなクライアントと互換性があり、開発者は API キーとエンドポイントの設定のみで音声機能を簡単に統合できます。さらに、音声エージェントの挙動もカスタマイズ可能で、特定のタスクへの最適化も可能です。
ElevenLabs は 2024 年に 180 億円の資金調達を行い、評価額は 33 億ドル(約 4950 億円)に達するなど、音声 AI 分野で急成長を遂げています。今回の MCP サーバー導入は、同社の技術をより開かれた形で提供する戦略の一環であり、今後はさらなるクライアントとの連携や、感情表現・コンテキスト認識といった音声品質の向上も期待されています。