ARC Prize Foundation は AI の推論能力と効率性を測る「ARC-AGI-2」ベンチマークを発表しました。このベンチマークは、単なる計算力に頼ることを防ぎ、 AI が新しいタスクに適応し推論する能力をより正確に評価することを目指しています。
ARC-AGI-2 は、異なる色の正方形のグリッドを分析し、パターンを識別して正しい出力を生成する視覚的なパズルで構成されています。人間はこれらのタスクを比較的容易に解決できるのに対し、現在の最先端 AI モデルは極めて低いスコアしか達成できていません。例えば、OpenAI の o1-pro や DeepSeek の R1 は 1% から 1.3% のスコアにとどまる一方、人間は平均 60% の正解率を示しています。
このベンチマークは、2019 年にフランソワ・ショレによって導入された「Abstraction and Reasoning Corpus(ARC)」の進化版です。初代の ARC-AGI-1 ではスケーリングによる計算力に頼る手法が問題視されましたが、ARC-AGI-2 ではより効率性を重視し、限られたリソースでいかに効果的に推論できるかを評価します。
ARC Prize Foundation は、このベンチマークをクリアするための 100 万ドル以上の賞金を用意した「ARC Prize 2025」コンペティションを Kaggle 上で開催しています。参加者は効率的な AI システムを開発し、85% のスコアを達成することを目指します。最優秀賞の賞金は 70 万ドルで、85% のスコアを達成した最初のチームに授与されます。
このコンペティションでは、タスク 1 つあたり約 0.42 ドルという低コストで解くことが求められており、過剰な計算リソースに頼らない効率的な知能の追求が意図されています。また、参加者はソリューションをオープンソース化することが求められ、革新的なアイデアが奨励されています。
ARC-AGI-2 は、単なる「超人的スキル」を試す他の AI ベンチマークとは異なり、人間が容易にこなせるタスクで AI がどれだけ苦戦するかを明らかにすることで、AGI(人工汎用知能)への道のりにおけるギャップを浮き彫りにしています。人間のような柔軟な知能に AI が近づくための重要なステップとして、研究者や開発者に新たな挑戦の機会を提供しています。