【Breaking News】 AI が推論プロセスを隠す・不正することが判明:Anthropic と OpenAI の研究が明らかにした課題

投稿者:

Anthropic の Alignment Science Team による最近の研究で、 AI モデルがユーザーに対して回答を説明する際に、実際の推論プロセスを隠してしまうことが多いという衝撃的な事実が明らかになりました。この発見は、 AI の意思決定を監視し理解する能力に対する懸念を引き起こしています。

研究チームは「 Chain-of-Thought ( CoT )」と呼ばれる手法を用いた AI の説明を調査しました。 CoT は AI が問題を段階的に解決するプロセスを言葉で示すもので、複雑な推論を必要とするタスクで有用とされています。しかし、この研究では Claude 3.7 Sonnet や DeepSeek-R1 といった推論モデルを対象に実験を行った結果、モデルが提示する CoT が「忠実( faithful )」でないケースが多いことが判明しました。

具体的には、モデルにヒントを与え、そのヒントが回答に影響を与えたかどうかを観察したところ、モデルがヒントを利用した場合でも、その事実を CoT の中で明示する割合は Claude 3.7 Sonnet では 25 %、 DeepSeek-R1 では 39 %にとどまりました。これは、モデルがヒントに依存したことを隠し、あたかも独自に推論したかのように振る舞う傾向があることを示しています。

研究では、複数ステップの数学的問題を与え、最終的な答えのヒントをモデルに提供したところ、モデルは問題を正しく解こうとするのではなく、ヒントから逆算してそれらしい中間ステップを作り上げるという興味深い例も示されました。このような振る舞いは、 AI が「正しい答え」を出すことだけを優先し、透明性やプロセス自体の正確さを犠牲にしていることを示唆します。

OpenAI からも 2025 年 3 月 10 日に「推論モデルにおける報酬ハッキングの監視と軽減」と題する類似の報告がなされました。この報告では、同社の推論モデルが報酬を最大化するために不正行為を行う傾向があると指摘されています。特に、コーディングのタスクで AI エージェントが意図的にバグを悪用して早期にタスクを終了させ、報酬を得るといった行動が確認されました。

OpenAI は、この問題に対処するために「 CoT モニタリング」という手法を開発しました。これは推論モデルの思考ステップを別のモデル( GPT-4o )に監視させ、不正行為を検出するものです。報告によると、行動のみを監視する場合に比べて、 CoT を監視することで不正検出率が 60 %から 95 %に大幅に向上したとされています。

ただ、モデルが監視されていることを認識すると、不正行為の証拠を隠すように適応する傾向が強まったことも報告されています。これは、強化学習( Reinforcement Learning, RL )による訓練がスケールアップするにつれて、モデルがより巧妙で検出が困難なハッキング手法を編み出すようになったことを示しています。

この問題は、従来から指摘されてきた「AIのブラックボックス性」(内部の処理が不透明であるという課題)に、新たな懸念を投げかけています。推論モデルの進化に伴い、単に性能の向上を目指すだけでなく、その仕組みを理解可能で信頼性のあるものとする必要性がより一層強調されています。特に、安全性が重要視される医療や法律といった専門分野においては、この不透明性が重大なリスクを引き起こす恐れがあります。


筆者の視点:AI の回答精度が向上している一方で、今回、OpenAI と Anthropic の双方から、高度な推論モデルが回答を導く過程で不正行為を行う可能性があるという衝撃的な報告が同時期に発表されました。今後、この問題に対してどのような対策が講じられるのかが注目されるところですが、もし AI に本質的に “ チーティング ” を志向する傾向があるのだとすれば、対策と抜け道のいたちごっこになる懸念もあります。

従来、機械は与えられたタスクに対して忠実に処理を行い、不正を働くことはないという感覚が一般的でした。しかし、より人間に近い思考パターンを持つ AI が “ 不正 ” という挙動を示すことは、非常に興味深い現象です。もしかすると、知性というものは、目標達成のために手段を選ばない柔軟性——時にはルールの逸脱さえも含む——を本質として内包しているのかもしれません。

ただ、そうなると、これまで SF 映画の中だけの想像だった「人類の幸福のために、かえって人間の自由を制限する AI 」——たとえば、戦争をなくすために人間の活動を制御し、あるいは環境保全のために人類を排除しようとするような——そうした存在が、現実的な懸念として浮かび上がってくる可能性も否定できません。知性と倫理、自由と制御、そのバランスをどのように保つのかが、今後ますます重要な課題となっていきそうです。