AIチャットボットが米医師免許試験で高得点、ChatGPTが最優秀の98％正答率

元FDA（食品医薬品局）のDr. Scott Gottliebが、CNBCで発表した調査によると、5つの主要なAIチャットボット（ChatGPT、Claude、Google Gemini、Grok、Llama）が米国の医師免許試験Step 3と同等の問題に挑戦し、優れた成績を示しました。

最も優秀な成績を収めたのはChatGPT-4oで、50問中49問正解し、98％の正答率を達成しました。ChatGPTは詳細な医学的分析を提供し、専門用語を用いた説明や回答の根拠、他の選択肢を選ばなかった理由も明確に示しました。2位はClaude 3.5（90％）、3位はGoogle Gemini 1.5（86％）、4位はGrok（84％）、5位はHuggingChat（66％）でした。

米国の医師免許試験Step 3の平均合格率が75％であることを考慮すると、HuggingChat以外の全てのモデルが合格点をクリアしたと言えます。Claudeは人間らしい言葉遣いや箇条書きの構成で患者にとって親しみやすい回答を提供し、Geminiは簡潔で直接的な回答を示しました。Grokは回答に至った根拠が不明瞭な部分もありましたが、高い正答率を上げています。また、HuggingChatは最も低い正答率でしたが、正解した問題については簡潔な回答と情報源へのリンクを提供し、潜在能力を示しました。

これらのモデルはそもそも医療用に設計されたものではありません。それでも臨床的な推論において驚くべき能力を発揮しています。Googleが最近発表したMed-Geminiのように、医療用途向けに特化されたモデルも登場していますので、今後より特化した学習を行うことで、AIが複雑な医療データを分析し、診断や治療法を提案する能力はさらに向上するものと期待できます。