OpenAIのMLE-bench　機械学習エンジニアリング能力を測る新しいAIベンチマーク

2024年10月12日

投稿者: aiupdate

文字サイズ

OpenAIは最近、AIエージェントが（いわゆるAGIとして効果的に動作するかの）「機械学習エンジニアリング能力」を評価するための新しいベンチマーク「MLE-bench」を発表しました。

このテストでは、データ分析のコンペティションサイト「Kaggle」で実際に行われた75の課題が使われています。自然言語処理や画像認識、信号処理などの課題をはじめ、COVID-19ワクチンの劣化予測や古代の巻物の解読など、実社会の問題を解決するのに役立つものも含まれています。

AIがこれらの課題をどのくらいうまく解けるのかは、Kaggleのランキングで人間と比較されます。テストに使われたプログラムは、GitHub上で誰でもアクセスできるように公開されています。

最初のテストでは、OpenAIの「o1-preview」というAIモデルと「AIDEフレームワーク」を組み合わせたものが、最も良い結果を出しました。このAIは、コンペティション全体の約17%で、人間の上位（ブロンズメダル以上）に入る成績を収めました。AIに試行錯誤をさせたり、考える時間を長くしたりすると、成功率が大幅に向上することも明らかになりました。

各社がAGIの開発に向かう中、新しく公開されたMLE-benchは、AIがエージェントとしてどの程度の能力を持っているのかを測るための重要なツールとなります。AIが複雑なタスクを自律的にこなせるようになれば、様々な分野の研究や開発がスピードアップする可能性があります。

一方で、このテストには課題も残されています。例えば、公開されているKaggleの課題を使うことで、AIが事前に答えを知ってしまう可能性があります。また、現実世界の課題はもっと複雑で、解決方法が明確でない場合も多いという指摘もされています。

OpenAIのMLE-bench 機械学習エンジニアリング能力を測る新しいAIベンチマーク

関連記事

【 Breaking News 】ChatGPT のシェアが初めて 50% を下回る、Gemini と Claude が存在感を高める

OpenAI、1年以内の株式上場を計画 サム・アルトマン CEO が社員に伝達

OpenAI が「第三フェーズ」を宣言、 2028 年までに AI 主導研究の実現を目指す

OpenAIのMLE-bench　機械学習エンジニアリング能力を測る新しいAIベンチマーク

OpenAI、1年以内の株式上場を計画　サム・アルトマン CEO が社員に伝達