OpenAI は 2025 年 5 月 12 日、医療分野における AI システムの性能と安全性を評価するための新しいベンチマーク「 HealthBench 」を発表しました。これは AI モデル、特に大規模言語モデル(
続きを読む
OpenAI は 2025 年 5 月 12 日、医療分野における AI システムの性能と安全性を評価するための新しいベンチマーク「 HealthBench 」を発表しました。これは AI モデル、特に大規模言語モデル(
続きを読むカリフォルニア大学バークレー校発の AI 評価プラットフォーム「 LMArena 」(旧 Chatbot Arena )が、2025 年 4 月 17 日に正式にスタートアップ企業「 Arena Intelligence
続きを読むOpenAI は 2025 年 4 月 10 日、AI エージェントがインターネット上の見つけにくい情報を探し出す能力を評価する新しいベンチマーク「BrowseComp」をオープンソースとして公開しました。 Browse
続きを読むARC Prize Foundation は AI の推論能力と効率性を測る「ARC-AGI-2」ベンチマークを発表しました。このベンチマークは、単なる計算力に頼ることを防ぎ、 AI が新しいタスクに適応し推論する能力を
続きを読む米スタートアップのScale AI と Center for AI Safety ( CAIS )が共同開発した新たな AI ベンチマーク「 Humanity’s Last Exam (人類最後の試験)」は、
続きを読む