AIの「仕事力」を測る – OpenAIの新評価指標「 GDPval 」

投稿者:

OpenAI が 2025 年 9 月 25 日に発表した「 GDPval 」は、 AI モデルが実際のプロフェッショナル業務にどこまで迫れるかを評価する新しいベンチマークです。従来のベンチマークが知識ベースのテストに偏っていたのに対し、 GDPval は米国 GDP に大きく貢献する 9 セクター 44 職種の「経済的価値ある実務タスク」に焦点を当てています。

GDPval は、米国労働統計局 O*NET が定義する主要業務活動をカバーし、各職種の実際の仕事を忠実に再現したタスクで AI の能力を計測します。課題は平均 14 年経験の専門家が監修し、 CAD や写真、スプレッドシート、 PowerPoint 、カスタマーサポートログなど多様なファイル・形式に対応。平均 7 時間以上かかる課題も含まれ、現場に近い評価環境を実現しています。

評価では、AI と人間の成果物を誰が作ったかを伏せた状態で専門家が比較・採点します。 GPT-5 、 Claude Opus 4.1 、 Gemini 2.5 Pro 、 Grok 4 などの最新モデルと人間専門家の品質・構成・正確さ・美観を多面的に比較し、 AI の”勝率”で実力を示す仕組みです。

結果として、トップモデルは 44 のタスクのうち約 50 %で人間の専門家と同等の品質を達成しました。 GPT-5 は指示遵守・計算精度で優れ、 Claude Opus 4.1 はレイアウト・図表など美的品質で高評価を得ています。一方、 Gemini や Grok は指示漏れや形式違いで評価を落とす傾向が見られました。

また、 AI が作成した成果物を専門家がチェック・修正する働き方では、人間だけで作業する働き方よりもコストと時間を削減できることが分かりました。 GPT-5 では最大 1.63 倍のコスト削減効果が確認されています。さらに、指示の出し方を工夫したり、複数回試行させたりすることで、フォーマットミスや品質の劣化を大幅に減らせることも検証されています。

GDPval は、220 のタスクと評価用ツールを公開しており、誰でも evals.openai.com で自動評価を試すことができます。従来の AI 評価は GDP 成長や導入率といった結果を見る指標が中心でしたが、 GDPval は「 AI が実際に現場のプロフェッショナルの代わりになれるのか」を直接測ることができる指標として、 AI の社会的影響を議論する上で参考となっています。

対象セクターには、不動産・賃貸業、製造業、プロ・技術サービス、政府、医療・福祉、金融・保険、小売、卸売、情報が含まれ、ソフトウェア開発者、弁護士、会計士、看護師、ジャーナリストなど多岐にわたる職種がカバーされています。