ベンチマークアーカイブ

Poetiq AI、既存モデルを活用し ARC-AGI-2最高精度の 54% を記録

6人の研究者とエンジニアで構成されるスタートアップ Poetiq AI が、2025年12月5日に ARC-AGI-2 Semi-Private Evaluation Set で54%の精度を達成し、新たな最高記録を樹立

Scale AI と Center for AI Safety が共同開発した新しいベンチマーク「Remote Labor Index（RLI）」の結果が 2024年10月30日に発表され、AI エージェントの実業務処

Scale AI は 2025 年 9 月 22 日、大規模言語モデル（ LLM ）の新しい評価プラットフォーム「 SEAL Showdown 」を発表しました。従来の LMArena のような評価手法とは異なり、世界中

ARC Prize 財団は 2025 年 7 月 18 日、新しい AI 評価用ベンチマーク「 ARC-AGI-3 」のプレビューを公開しました。これは「インタラクティブ推論ベンチマーク」と呼ばれ、未知の環境下で AI

OpenAI は 2025 年 5 月 12 日、医療分野における AI システムの性能と安全性を評価するための新しいベンチマーク「 HealthBench 」を発表しました。これは AI モデル、特に大規模言語モデル（

カリフォルニア大学バークレー校発の AI 評価プラットフォーム「 LMArena 」（旧 Chatbot Arena ）が、2025 年 4 月 17 日に正式にスタートアップ企業「 Arena Intelligence

OpenAI は 2025 年 4 月 10 日、AI エージェントがインターネット上の見つけにくい情報を探し出す能力を評価する新しいベンチマーク「BrowseComp」をオープンソースとして公開しました。 Browse

ARC Prize Foundation は AI の推論能力と効率性を測る「ARC-AGI-2」ベンチマークを発表しました。このベンチマークは、単なる計算力に頼ることを防ぎ、 AI が新しいタスクに適応し推論する能力を

米スタートアップのScale AI と Center for AI Safety （ CAIS ）が共同開発した新たな AI ベンチマーク「 Humanity’s Last Exam （人類最後の試験）」は、