OpenAI、医療分野における AI 評価の新基準「 HealthBench 」を発表

投稿者:

OpenAI は 2025 年 5 月 12 日、医療分野における AI システムの性能と安全性を評価するための新しいベンチマーク「 HealthBench 」を発表しました。これは AI モデル、特に大規模言語モデル( LLM )が実際の医療現場でどの程度役に立つのかを、医師の視点と現実的な使用場面に基づいて評価することを目的としています。

HealthBench の開発には、世界 60 カ国の医師 262 人が参加しました。彼らは 49 言語に対応し、心臓病学から小児科まで 26 の医療専門分野をカバーしています。このベンチマークには、5,000 件の現実的な健康相談の会話が含まれており、 AI モデルと患者や医療従事者とのやり取りを再現しています。

評価システムの核となるのが、48,562 の詳細な評価基準です。これらは医師が各会話に合わせて個別に作成したもので、「どの薬をどの用量で服用すべきか」といった具体的な医学知識から、「より正確な診断のために患者に症状の詳細を尋ねる」といった適切な対応まで、幅広い項目をカバーしています。正確性、指示への対応、コミュニケーションの質、完全性といった複数の観点から、 AI の回答が医療現場で適切かどうかを細かくチェックする仕組みです。

これまでの医療 AI 評価は、多肢選択問題や短い回答形式のテスト問題が中心で、実際の診療での複雑なやり取りを十分に評価できていませんでした。 HealthBench は、患者と医師の間で実際に交わされるような多回にわたる対話を通じて、より現実的な評価を可能にしています。評価項目は緊急事態への対応、不確実な状況での判断、世界各地の医療事情への対応など 7 つのテーマに分けられ、それぞれに専用の評価基準が設けられています。

初回の評価結果では、OpenAI の最新モデル「 o3 」が 60% のスコアで首位となりました。続いて xAI の Grok 3 が 54%、Google の Gemini 2.5 Pro が 52% という結果でした。一方、従来の GPT-4o は 32% にとどまり、AI モデル間で大きな性能差があることが浮き彫りになりました。

分析の結果、AI が医療質問に対してどれだけ包括的で網羅的な回答を提供できるかを測る「完全性」という評価軸が、全体的な性能を最も左右することが分かりました。これは、評価項目の約 40% が完全性に関するものであることからも、医療分野では部分的な情報ではなく、患者の安全に必要な全ての重要な情報を含む包括的な回答が重視されることを表しています。

HealthBench は完全にオープンソースで公開されており、データセット、評価ツール、詳細な採点システムが GitHub で自由に利用できます。これにより世界中の研究者や開発者が参加できる環境が整い、医療 AI の発展を加速させる可能性があります。