AI 評価プラットフォーム「LMArena」が企業化

投稿者:

カリフォルニア大学バークレー校発の AI 評価プラットフォーム「 LMArena 」(旧 Chatbot Arena )が、2025 年 4 月 17 日に正式にスタートアップ企業「 Arena Intelligence Inc. 」として会社化することを発表しました。

LMArena は 2023 年に設立され、生成 AI や大規模言語モデル( LLM )の中立的なベンチマーク・評価プラットフォームとして急速に評価を高めてきました。Google、OpenAI、Anthropic など主要な AI 企業とも連携し、AI モデルの性能をコミュニティ主導で比較・評価できる場を提供しています。

LMArena の評価方法は、「ELOレーティングシステム」に基づいています。このシステムはもともとチェスの対戦評価に用いられていたもので、現在ではサッカーの FIFA ランキングなどにも応用されています。LMArena では、ユーザーが2つの AI モデルに同じ質問を投げかけ、どちらの回答が優れているかを投票することで、モデル同士の相対的な強さを数値化します。勝利したモデルは評価ポイントを獲得し、敗れたモデルはポイントを失います。このプロセスを、ランダムに選ばれたさまざまなモデルの組み合わせで繰り返すことにより、モデルの性能が徐々に明確に評価されていきます。こうした公平かつ透明な仕組みにより、実際のユーザー評価に基づいた信頼性の高いランキングが構築されているのです。

新会社設立の目的は、より多くのリソースを確保し、プラットフォームの機能強化や新機能開発を加速させることです。LMArena は「中立性」を最重要価値とし、どの企業にも偏らない評価を維持することを強調しています。

スタートアップ化に伴い、コア機能を再構築したベータ版が公開され、ログイン機能、チャット履歴、個人用リーダーボードなどの新機能が追加されました。今後は「 WebDev Arena 」「 RepoChat Arena 」「 Search Arena 」など新たな LLM 評価プロジェクトも展開予定です。

収益化モデルは現時点で未確定で、資金調達もこれから本格化する予定です。ただし、AI 開発企業が中立的かつ信頼できる評価サービスを強く求めている現状から、今後の収益化には自信を示しています。

主要メンバー( Anastasios Angelopoulos 氏、Wei-Lin Chiang 氏、アドバイザーの Ion Stoica 氏など)は引き続き運営に関わり、学術的な中立性とコミュニティの信頼を最重要視する方針です。

LMArena は最近 Meta の Llama 4 モデルのベンチマーク操作問題で注目されましたが、この経験を踏まえて AI モデル開発企業には透明性と再現性を重視する姿勢を明確にしています。AI モデルの公平な評価がますます重要となる中、LMArena の企業化は業界における透明性と公平性を推進する重要なステップとなりそうです。