OpenAIとGoogle DeepMind、2025年国際数学オリンピックで「ゴールドメダル級」を達成

投稿者:

OpenAI と Google DeepMind の最新 AI が、世界最高峰の高校生向け数学コンテスト「国際数学オリンピック( IMO )」で、人間のゴールドメダリストに匹敵する成績を収めました。

OpenAI は 7 月 19 日、実験段階の汎用推論 AI を IMO 2025 の問題で試したところ、 6 問中 5 問を解くことができたと発表しました。 35 点という結果は、今年のゴールドメダル基準(上位 8-10% )に相当します。しかも人間の参加者と全く同じ条件、つまり 2 日間で各 4.5 時間、外部ツールは一切使わず、ペンと紙だけで挑戦しています。採点は複数の元 IMO 金メダリストが独立して行い、その結果に太鼓判を押しています。

この点、Google DeepMind も負けていません。 7 月 21 日、同社の「 Gemini Deep Think 」も同じく 35 点を獲得しました。ただし Google の場合、 IMO の運営組織と正式に連携し、公式の審査員による採点を受けています。これにより「史上初の公式 AI 金メダリスト」という称号を手に入れました。

今回関係者を驚かせたのは、両モデルともに問題文を自然言語で理解し、証明過程も自然な文章で書き上げたことです。

これまでの AI は数学の問題を解く際、数式を特別な形式に変換する必要がありました。しかし今回は、人間と同じように自然な言葉で問題を読み取り、解答プロセスも普通の文章で表現したのです。数時間かけて論理を組み立て、緻密な証明を構築するという、まさに人間の数学者がやっていることを AI が再現したわけです。

技術面でも大きな進歩が見られます。両社とも、高度な強化学習や自己学習の仕組みを使って訓練されており、様々な分野の数学問題に柔軟に対応できるようになっています。これは単純なパターン認識を超えた、本当の意味での創造的思考力の現れといえるでしょう。

もちろん完璧ではありません。両 AI とも最難問の 6 問目は解けませんでした。満点の 42 点を取れたのは人間でも数人程度で、この点では人間のトップクラスとほぼ同じレベルということになります。

ただ、今回の発表をめぐっては少し騒動もありました。 IMO の運営側は、人間の参加者への配慮から 7 月 28 日まで AI の結果発表を控えてほしいと各社に要請していました。 Google はこの要請を守りましたが、 OpenAI は 7 月 19 日に発表してしまい、「フライング気味では?」という声も上がっています。

評価の仕方にも違いがあります。 Google は IMO の公式な審査を受けた「お墨付き」がある一方、 OpenAI は元金メダリストによる独自の採点という形です。どちらの結果がより信憑性があると言えるかは議論の分かれるところです。