OpenAI が 2025 年 4 月に発表した最新 AI モデル「 o3 」と「 o4-mini 」について、社内外の評価で「ハルシネーション(事実でない情報をもっともらしく生成する現象)」が従来モデルよりも明らかに増加していることが明らかになりました。
OpenAI の内部評価( PersonQA ベンチマーク)によると、 o3 モデルは 33 %、 o4-mini モデルは 48 %という高いハルシネーション率を記録。これは従来モデル( o1 : 16 %、 o3-mini : 14.8 %)の約 2 倍~ 3 倍に相当します。
非営利 AI 研究機関 Transluce による独立評価でも、 o3 モデルが「実際には実行できない処理(例: MacBook Pro 上でコードを実行したと主張)」を行ったと虚偽の説明をするなど、事実を捏造する傾向が確認されています。また、ウェブリンクを生成する際に、存在しない URL やアクセスできないリンクを提示することも頻繁に見られました。
OpenAI自身も、新モデルでハルシネーション(事実誤認)が増加した理由を明確には把握していません。OpenAIの説明によれば、新モデルはより多くの情報を積極的に提供しようとする傾向があり、その結果、正確な情報が増える一方で、誤った情報も同時に増加するというトレードオフが生じてしまっているとのこと。つまり、全体の発言量が増えたことで、正しい回答も増えたものの、それに比例して誤情報も増えているという状況です。
o3 ・ o4-mini はコーディングや数学的推論など一部分野で高い能力を発揮していますが、事実性・信頼性の面では従来モデルより劣るというトレードオフが生じています。業界からは「この傾向は AI モデルの信頼性に疑念を生じさせる」との懸念が広がっており、特に事実の正確さが求められる用途においては、o1 のような従来モデルの方が適している可能性も指摘されています。
OpenAI は「ハルシネーション問題の解消は継続的な研究課題」とし、今後も改善に取り組むとしていますが、現時点で抜本的な解決策は示されていません。利用者や開発者には、事実確認や外部チェック機構の導入など、慎重な運用が推奨されています。