ベンチマークアーカイブ - AI News Updates

2026年7月3日（金）

フリーランス作業の自動化を測るRLI ベンチマーク：8か月で AI による自動化率が6倍に上昇

2026年7月3日カンファレンス・調査報告ベンチマーク

フリーランス作業の自動化を測るRLI ベンチマーク：8か月で AI による自動化率が6倍に上昇

AI 研究機関の Scale AI と Center for AI Safety（CAIS）が共同で開発したベンチマーク…

続きを読む »

2026年4月10日（金）

【 Breaking News 】ARC-AGI-3 リリース：最先端 AI のスコアは人間の 1% 未満

2026年4月10日ベンチマーク

【 Breaking News 】ARC-AGI-3 リリース：最先端 AI のスコアは人間の 1% 未満

2026 年 3 月 25 日、AI の能力評価を手がける非営利団体 ARC Prize Foundation が、新し…

続きを読む »

2025年12月9日（火）

Poetiq AI、既存モデルを活用し ARC-AGI-2最高精度の 54% を記録

2025年12月9日その他ベンチマーク

Poetiq AI、既存モデルを活用し ARC-AGI-2最高精度の 54% を記録

6人の研究者とエンジニアで構成されるスタートアップ Poetiq AI が、2025年12月5日に ARC-AGI-2 …

続きを読む »

2025年11月13日（木）

最先端 AI エージェントでも実業務の自動化は 2.5% のみーScale AI の新しいベンチマークが示す現実

2025年11月13日カンファレンス・調査報告ベンチマーク

最先端 AI エージェントでも実業務の自動化は 2.5% のみーScale AI の新しいベンチマークが示す現実

Scale AI と Center for AI Safety が共同開発した新しいベンチマーク「Remote Labo…

続きを読む »

2025年9月30日（火）

LMArena に対抗、 Scale AI が実ユーザーベースの評価プラットフォームを公開

2025年9月30日ベンチマーク

LMArena に対抗、 Scale AI が実ユーザーベースの評価プラットフォームを公開

Scale AI は 2025 年 9 月 22 日、大規模言語モデル（ LLM ）の新しい評価プラットフォーム「 SE…

続きを読む »

2025年7月25日（金）

ARC Prize財団が新ベンチマーク「ARC-AGI-3」のプレビュー版を公開

2025年7月25日ベンチマーク

ARC Prize財団が新ベンチマーク「ARC-AGI-3」のプレビュー版を公開

ARC Prize 財団は 2025 年 7 月 18 日、新しい AI 評価用ベンチマーク「 ARC-AGI-3 」の…

続きを読む »

2025年5月22日（木）

OpenAI、医療分野における AI 評価の新基準「 HealthBench 」を発表

2025年5月22日 AI Chat OpenAI

OpenAI、医療分野における AI 評価の新基準「 HealthBench 」を発表

OpenAI は 2025 年 5 月 12 日、医療分野における AI システムの性能と安全性を評価するための新しいベ…

続きを読む »

2025年4月18日（金）

AI 評価プラットフォーム「LMArena」が企業化

2025年4月18日ベンチマーク

AI 評価プラットフォーム「LMArena」が企業化

カリフォルニア大学バークレー校発の AI 評価プラットフォーム「 LMArena 」（旧 Chatbot Arena ）…

続きを読む »

2025年4月15日（火）

OpenAI、AI の web 検索能力を評価する「BrowseComp」ベンチマークをオープンソースで公開

2025年4月15日 OpenAI ベンチマーク

OpenAI、AI の web 検索能力を評価する「BrowseComp」ベンチマークをオープンソースで公開

OpenAI は 2025 年 4 月 10 日、AI エージェントがインターネット上の見つけにくい情報を探し出す能力を…

続きを読む »

2025年3月26日（水）

ARC-AGI-2：AI の推論能力を評価する新しいベンチマーク

2025年3月26日ベンチマーク

ARC-AGI-2：AI の推論能力を評価する新しいベンチマーク

ARC Prize Foundation は AI の推論能力と効率性を測る「ARC-AGI-2」ベンチマークを発表しま…

続きを読む »

2025年1月30日（木）

No Image

2025年1月30日ベンチマーク

Scale AIとCAISが「Humanity’s Last Exam」を発表 – AIモデルの知識と推論能力を極限まで試す新ベンチマーク

米スタートアップのScale AI と Center for AI Safety （ CAIS ）が共同開発した新たな …

続きを読む »