OpenAI は 2025 年 4 月 10 日、AI エージェントがインターネット上の見つけにくい情報を探し出す能力を評価する新しいベンチマーク「BrowseComp」をオープンソースとして公開しました。 Browse
続きを読む
OpenAI は 2025 年 4 月 10 日、AI エージェントがインターネット上の見つけにくい情報を探し出す能力を評価する新しいベンチマーク「BrowseComp」をオープンソースとして公開しました。 Browse
続きを読むARC Prize Foundation は AI の推論能力と効率性を測る「ARC-AGI-2」ベンチマークを発表しました。このベンチマークは、単なる計算力に頼ることを防ぎ、 AI が新しいタスクに適応し推論する能力を
続きを読む米スタートアップのScale AI と Center for AI Safety ( CAIS )が共同開発した新たな AI ベンチマーク「 Humanity’s Last Exam (人類最後の試験)」は、
続きを読む