2026年4月10日 ベンチマーク 【 Breaking News 】ARC-AGI-3 リリース:最先端 AI のスコアは人間の 1% 未満 2026 年 3 月 25 日、AI の能力評価を手がける非営利団体 ARC Prize Foundation が、新し… 続きを読む »
2025年12月9日 その他 ベンチマーク Poetiq AI、既存モデルを活用し ARC-AGI-2最高精度の 54% を記録 6人の研究者とエンジニアで構成されるスタートアップ Poetiq AI が、2025年12月5日に ARC-AGI-2 … 続きを読む »
2025年11月13日 カンファレンス・調査報告 ベンチマーク 最先端 AI エージェントでも実業務の自動化は 2.5% のみーScale AI の新しいベンチマークが示す現実 Scale AI と Center for AI Safety が共同開発した新しいベンチマーク「Remote Labo… 続きを読む »
2025年9月30日 ベンチマーク LMArena に対抗、 Scale AI が実ユーザーベースの評価プラットフォームを公開 Scale AI は 2025 年 9 月 22 日、大規模言語モデル( LLM )の新しい評価プラットフォーム「 SE… 続きを読む »
2025年7月25日 ベンチマーク ARC Prize財団が新ベンチマーク「ARC-AGI-3」のプレビュー版を公開 ARC Prize 財団は 2025 年 7 月 18 日、新しい AI 評価用ベンチマーク「 ARC-AGI-3 」の… 続きを読む »
2025年5月22日 AI Chat OpenAI OpenAI、医療分野における AI 評価の新基準「 HealthBench 」を発表 OpenAI は 2025 年 5 月 12 日、医療分野における AI システムの性能と安全性を評価するための新しいベ… 続きを読む »
2025年4月18日 ベンチマーク AI 評価プラットフォーム「LMArena」が企業化 カリフォルニア大学バークレー校発の AI 評価プラットフォーム「 LMArena 」(旧 Chatbot Arena )… 続きを読む »
2025年4月15日 OpenAI ベンチマーク OpenAI、AI の web 検索能力を評価する「BrowseComp」ベンチマークをオープンソースで公開 OpenAI は 2025 年 4 月 10 日、AI エージェントがインターネット上の見つけにくい情報を探し出す能力を… 続きを読む »
2025年3月26日 ベンチマーク ARC-AGI-2:AI の推論能力を評価する新しいベンチマーク ARC Prize Foundation は AI の推論能力と効率性を測る「ARC-AGI-2」ベンチマークを発表しま… 続きを読む »
No Image 2025年1月30日 ベンチマーク Scale AIとCAISが「Humanity’s Last Exam」を発表 – AIモデルの知識と推論能力を極限まで試す新ベンチマーク 米スタートアップのScale AI と Center for AI Safety ( CAIS )が共同開発した新たな … 続きを読む »