LMArena に対抗、 Scale AI が実ユーザーベースの評価プラットフォームを公開

投稿者:

Scale AI は 2025 年 9 月 22 日、大規模言語モデル( LLM )の新しい評価プラットフォーム「 SEAL Showdown 」を発表しました。従来の LMArena のような評価手法とは異なり、世界中の実際のユーザーの多様な属性や好みを反映した、より現実的なランキングを提供することを目指しています。

SEAL Showdown の最大の特徴は、そのデータ収集の規模と多様性です。 Scale AI が運営する「 Outlier 」という専門家向けクラウドソーシングプラットフォームを通じて、100 ヵ国以上、70 言語以上、200 の職業領域から、何百万件もの実際の会話データを集めています。 Outlier は、世界中の専門家や AI に関心のある人々が、 AI モデルのトレーニングや評価作業に参加できる仕組みで、従来のテック愛好家中心の評価から脱却し、本当の利用環境でのパフォーマンスを明らかにしようという試みです。

特に注目すべきは、評価結果の詳細な分類です。国、年代、言語、職業、教育レベルなどで細かく分けて表示されるため、例えば「30-50 歳では ChatGPT が首位」「50 歳以上は Claude 、 Gemini 、 GPT が同率トップ」「ヨーロッパでは ChatGPT が強く、アフリカやオセアニアでは Gemini が上位」といった、利用者層ごとの傾向を把握できます。

信頼性の確保にも配慮されています。ランキングの不正操作を防ぐため、リーダーボードのもとになるデータ分布は 60 日間は外部に公開されません。これにより、 AI 開発者が事前にテストデータを知って、そのデータに特化したモデル調整を行うことを防いでいます。また投票は全て任意で、日常的な利用の中から自然に集められたものです。強制的なテストや誘導的なフィードバックではないため、より実態に即した評価になっています。

従来の LMArena は主に技術者や一部コミュニティの好みに偏っており、グローバルな実利用の観点からは十分とは言えませんでした。一方、 SEAL Showdown は実際のユーザー体験に基づいた投票を集め、属性別の詳しい分析結果を公開している点で新しいアプローチと言えます。

このプラットフォームは、ユーザーが自分の地域や年齢、言語に合った LLM を選ぶ際の参考になるだけでなく、開発者側にとっても「どの属性でモデル性能にばらつきがあるか」を把握し、改善につなげるための有用な指標となります。

Scale AI は最近、 Meta との提携失敗や訴訟問題などで逆風にさらされていましたが、今回のツールを「中立性と透明性の回復」の一環として位置づけ、業界の信頼を取り戻そうとしています。 SEAL Showdown は AI 評価の新しい基準として、今後の影響が注目されます。

(897 文字)


スラッグ: scale-ai-seal-showdown-new-llm-benchmark

メタディスクリプション: Scale AI が 9 月 22 日に発表した「 SEAL Showdown 」は、100 ヵ国以上から集めた実ユーザーのデータで LLM を評価する新プラットフォーム。年齢、地域、職業別の詳細なランキングを提供し、より実態に即した AI 評価を実現します。(125 文字)