Scale AIとCAISが「Humanity's Last Exam」を発表 - AIモデルの知識と推論能力を極限まで試す新ベンチマーク

米スタートアップのScale AI と Center for AI Safety （ CAIS ）が共同開発した新たな AI ベンチマーク「 Humanity’s Last Exam （人類最後の試験）」は、 AI の知識と推論能力を極限まで試すことを目的とした、これまでで最も難易度の高い学術テストとして発表されました。既存のベンチマークでは AI が高得点を取りすぎ、適切な評価が難しくなっている現状を踏まえ、より厳格な評価基準を提供することを目指しています。

Humanity’s Last Exam は、世界中の 500 以上の機関から約 1,000 人の専門家が参加し、 7 万以上の質問案から最終的に 3,000 問が選定されました。これらは数学、人文学、自然科学など多岐にわたる分野をカバーしており、多肢選択式や短答式で構成されています。このベンチマークは、単なる知識（情報の記憶）だけでなく、その知識を新しい状況に応用し、計画や推論を行う能力（知性）を測定することに重点を置いています。そのめ、インターネット検索では簡単に答えが得られないよう設計されており、テキストだけでなく画像や図表なども含むマルチモーダル形式となっています。

現在の最先端 AI モデルでも、この試験で 10% 未満の正答率しか達成できていません。OpenAI の GPT-4o は 3.3% 、 Google Gemini 1.5 は 6.2% 、 DeepSeek-R1 （テキスト専用）は 9.4% という結果になっています。

この試験は、 AI 技術の進歩を測る共通基準を提供し、研究者や政策立案者が AI の能力について議論する際の指針となります。従来のベンチマークが急速に「飽和」したことを受け、将来的に高得点が達成される可能性はあります。

CAIS と Scale AI は、この試験を研究コミュニティに公開し、新たな AI モデルやトレーニング手法の評価に活用する予定です。また、公平性を保つため、一部の質問は非公開とし、将来の評価に利用されます。

筆者の視点：既存のベンチマークが簡単すぎて、現在の AI モデルの性能を適切に評価できなくなっているという指摘は、昨年後半から続いていました。今回、新たによりチャレンジングなベンチマークが設定されたことで、各社はこの基準に適応し、求められる能力の向上に努めていくでしょう。AI の進展とベンチマークは密接に関係しており、新たなベンチマークが次々と提案されることは、技術の発展を促す上で非常に有意義だと言えます。