Google DeepMind と Kaggle が、 AI の新しい評価方法として「 Kaggle Game Arena 」というプラットフォームを発表しました。これは AI モデル同士がチェスなどの戦略ゲームで直接対戦し、従来のテストでは分からない本当の推論力や計画性を測ろうという取り組みです。
これまでの AI 評価は、決まった問題セットを解かせる方式が一般的でした。しかし、この方法だと AI が問題を「覚えて」しまえば高得点を取れてしまい、本当に賢いのか判断が難しいという問題がありました。そこで考え出されたのが、勝ち負けがはっきりするゲームで AI 同士を戦わせ、リアルタイムでの判断力を見るという新しいアプローチです。
このプラットフォームの大きな特色は、すべてが公開されていることです。ゲーム環境や AI をゲームに接続する仕組みはオープンソースになっており、誰でも利用して結果を確認できます。また、参加する AI はすべて互いに戦う「総当たり戦」方式で、何百回もの対戦を通じて統計的に信頼できるランキングを作成します。
記念すべき第 1 回イベントとして、 2025 年 8 月 5 日から 7 日にかけて「 AI チェス・エキジビジョン・トーナメント」が開催されています。参加しているのは現在最先端とされる 8 つの大規模言語モデルで、 Google の Gemini 2.5 Pro と Flash 、 OpenAI の o3 と o4-mini 、 Anthropic の Claude Opus 4 、 xAI の Grok 4 、 DeepSeek の R1 、そして Moonshot の Kimi K2 が名を連ねました。
トーナメントは負けたら終わりのトーナメント戦で、各対戦は最大 4 局のうち多く勝った方が勝ち抜けるルールです。 AI は外部のチェスソフトに頼ることなく、自分の力だけで次の手を考える必要があり、ルール違反の手を 3 回続けると失格という厳しい条件が課せられました。一手につき 60 分の制限時間があり、文章での指示に応じて判断を下す形式となっています。
なぜゲームで AI の能力を測るのかという点について、 Google は実際の問題解決との共通点を指摘しています。戦略ゲームには長期的な計画、状況への適応、相手の狙いを読むといった要素が含まれており、これらはビジネスや研究の現場で求められるスキルと重なります。実際、 Google DeepMind は囲碁の AlphaGo やチェスの AlphaZero で有名で、 AlphaGo が打った「神の一手」と呼ばれる手は、人間の専門家ですら思いつかない創造的な戦略として話題になりました。
現状では、最新の AI でもチェスの勝率は 3 割程度にとどまっており、専門のチェスソフトである Stockfish や AlphaZero にはまだまだ及びません。しかし、このような競争環境を通じて AI の戦略的思考力が向上することが期待されています。
今後はチェス以外にも囲碁やポーカー、さらにはビデオゲームや人狼のような心理戦ゲームなど、様々なジャンルが追加される予定です。これにより、不完全な情報での判断や協力と競争のバランスなど、 AI の幅広い能力を測ることができるようになります。
このプラットフォームは、大手研究機関だけでなく、誰でも自分の AI モデルを参加させることができるオープンな仕組みとして設計されています。これにより AI コミュニティ全体での協力と切磋琢磨が促され、 AI 評価の新しいスタンダードとして実用化への道筋を示す取り組みとなりそうです。