OpenAIは最近、AIエージェントが(いわゆるAGIとして効果的に動作するかの)「機械学習エンジニアリング能力」を評価するための新しいベンチマーク「MLE-bench」を発表しました。
このテストでは、データ分析のコンペティションサイト「Kaggle」で実際に行われた75の課題が使われています。自然言語処理や画像認識、信号処理などの課題をはじめ、COVID-19ワクチンの劣化予測や古代の巻物の解読など、実社会の問題を解決するのに役立つものも含まれています。
AIがこれらの課題をどのくらいうまく解けるのかは、Kaggleのランキングで人間と比較されます。テストに使われたプログラムは、GitHub上で誰でもアクセスできるように公開されています。
最初のテストでは、OpenAIの「o1-preview」というAIモデルと「AIDEフレームワーク」を組み合わせたものが、最も良い結果を出しました。このAIは、コンペティション全体の約17%で、人間の上位(ブロンズメダル以上)に入る成績を収めました。AIに試行錯誤をさせたり、考える時間を長くしたりすると、成功率が大幅に向上することも明らかになりました。
各社がAGIの開発に向かう中、新しく公開されたMLE-benchは、AIがエージェントとしてどの程度の能力を持っているのかを測るための重要なツールとなります。AIが複雑なタスクを自律的にこなせるようになれば、様々な分野の研究や開発がスピードアップする可能性があります。
一方で、このテストには課題も残されています。例えば、公開されているKaggleの課題を使うことで、AIが事前に答えを知ってしまう可能性があります。また、現実世界の課題はもっと複雑で、解決方法が明確でない場合も多いという指摘もされています。