ARC Prize財団が新ベンチマーク「ARC-AGI-3」のプレビュー版を公開

投稿者:

ARC Prize 財団は 2025 年 7 月 18 日、新しい AI 評価用ベンチマーク「 ARC-AGI-3 」のプレビューを公開しました。これは「インタラクティブ推論ベンチマーク」と呼ばれ、未知の環境下で AI エージェントがどれだけ応用力を発揮し、人間的な知能を発揮できるかを測定するものです。

これまでの ARC-AGI シリーズは主に静的なパズル問題を通じて AI の推論能力を評価してきましたが、 ARC-AGI-3 では大きく方向性を変えています。エージェントが未知のゲーム環境と直接やり取りしながら、複数ステップにわたる「探索」「計画」「行動」を繰り返す構造になっています。

最も注目すべきは、事前に正解やルールが与えられない新環境で、どれだけ素早くスキルを獲得し、解決戦略を臨機応変に変えられるかを評価する点です。これは従来のパターン認識や膨大なデータ学習による「解答の丸暗記」とは異なり、人間の学習や問題解決により近いアプローチを求めています。

初期テストの結果は衝撃的でした。 2025 年 7 月時点で公開されたプレビューによると、最先端の AI (フロンティア AI )のスコアが 0% だったのに対し、人間のスコアは 100% でした。人間には数分で解ける問題でも、 o3 や Grok 4 などの最新モデルは一つのステージも攻略できませんでした。

この結果は、現状の AI が依然として人間の柔軟な一般化能力や即時学習能力には及ばないことを明確に示しています。「人間には簡単でも AI にとっては非常に困難」な課題構成により、 AI と人間の間にある決定的な「知能ギャップ」が浮き彫りになりました。

ARC Prize 財団は、コミュニティの参加を促すため様々なリソースを提供しています。現在 3 つのゲームが公開されており、誰でもプレイ可能です。また、 Hugging Face と提携して賞金 1 万ドル(約 146 万円)のエージェントコンテストを開催中で、提出期限は 8 月 10 日となっています。

ARC-AGI-3 の設計哲学は「人間にとって簡単、 AI にとって難しい」問題を作成する、という原則に基づいています。言語や専門知識を必要とせず、生まれつきまたは幼少期に獲得される基本的な認知能力(物体の永続性、因果関係など)だけで解決できる設計になっています。

AGI (汎用人工知能)への到達の指標として、今後さらに注目される分野となりそうです。 AI 研究コミュニティでは「 ARC-AGI-3 をクリアできる AI こそ AGI 」という見方も出てきており、 2026 年初頭の完全版リリースに向けて注目が集まっています。