最先端 AI エージェントでも実業務の自動化は 2.5% のみーScale AI の新しいベンチマークが示す現実

投稿者:

Scale AI と Center for AI Safety が共同開発した新しいベンチマーク「Remote Labor Index(RLI)」の結果が 2024年10月30日 に発表され、AI エージェントの実業務処理能力の現実が明らかになりました。

このベンチマークでは、実際にフリーランサーが手がけた 240 のプロジェクトを使用して AI の性能を測定しています。これらの作業の総額は 143,991 ドル(約 2,160万円)で、プロジェクトの価値は中央値で約 200 ドル(約 3万円)、最高額は 22,500 ドル(約 338万円)でした。対象分野は 23 の異なるドメインにわたり、人間が完了するのに平均 28.9 時間を要する内容となっています。

6 つの最先端 AI エージェントを対象にテストした結果、最も優秀だった中国スタートアップ開発の Manus でも自動化率は 2.5% にとどまりました。続いて Grok 4 と Claude Sonnet 4.5 が 2.1%、OpenAI の GPT-5 が 1.7%、ChatGPT Agent が 1.3%、Google Gemini 2.5 Pro が 0.8% という成績でした。

研究チームが AI の失敗要因を分析したところ、品質の低さが 45.6%、成果物の不完全性が 35.7%、技術的な問題が 17.6% を占めていることが分かりました。多くの AI が「子供のような」レベルの作品を制作したり、動画の途中で切れてしまったりといった問題を起こしていました。

この 97.5% という高い失敗率は、AI による大規模な雇用代替が近い将来に起こるという懸念を否定する結果となりました。Center for AI Safety の Dan Hendrycks 所長は、現在の AI エージェントには長期記憶や継続的な学習能力が不足していると指摘し、完全な自動化よりも人間の作業を補助する形での活用が現実的だとしています。