OpenAI は 2025 年 4 月 10 日、AI エージェントがインターネット上の見つけにくい情報を探し出す能力を評価する新しいベンチマーク「BrowseComp」をオープンソースとして公開しました。
BrowseComp(Browsing Competition の略)は、1,266 問の事実に基づく質問で構成されており、それぞれの質問には短く明確な答えがあります。このベンチマークの特徴は、単純な検索では答えが見つからないよう設計されており、AI が複数のウェブページを調べ、情報を整理・統合する能力が求められる点です。質問は映画やテレビ番組(16.2%)、科学技術(13.7%)、歴史(9.9%)、スポーツ(9.7%)など幅広い分野をカバーしています。
例えば「2018 年から 2023 年の間に EMNLP カンファレンスで発表された論文で、筆頭著者がダートマス大学、第 4 著者がペンシルバニア大学で学士号を取得している論文は何か?」といった、単純なキーワード検索では解決できず、複数の情報源をたどり、関連する事実をつなぎ合わせる必要がある質問が出題されます。
BrowseComp の質問は「逆質問設計」という手法で作られました。まず特定の事実を選定し、その事実に関連する複数の手がかりをウェブ上で探して答えを見つけるのが難しい質問を作成。その後、GPT-4o などの高度なモデルでも簡単に解けないこと、検索エンジンの最初のページに答えが表示されないこと、人間の専門家でも 10 分以内に解くのが難しいことなどを基準に難易度を検証しています。
OpenAI は、BrowseComp を使って複数のモデルをテストしました。その結果、ブラウジング機能のない GPT-4o は 0.6%、ブラウジング機能を追加しても 1.9%、GPT-4.5 は 0.9%、OpenAI o1 は 9.9% の正答率でした。一方、持続的なウェブ検索や情報統合に特化して訓練された Deep Research モデルは 51.5% の正答率を達成し、他のモデルを大きく上回りました。また人間の専門家にも 1,255 問を解かせたところ、2 時間以内に解けたのは 29.2%(367 問)で、そのうちの正答率は 86.4%( ≒ 全体に対しての正答率は25.26%) にとどまっています。
BrowseComp は GitHub 上の OpenAI の「simple-evals」リポジトリで公開されており、誰でも無料で利用できます。オープンソース化により、世界中の開発者がこのベンチマークを使って AI のウェブ閲覧能力をテスト・改善できるようになります。OpenAI は、BrowseComp が AI エージェントの開発における「プログラミングコンテスト」のような役割を果たし、業界全体の技術革新を加速させると期待しています。