AnthropicがClaudeの恐喝行動の原因を特定し、修正に成功

Anthropicは2026年5月8日、昨年実施した安全テストで発見されたClaudeの問題行動について、その原因と解決策を公式ブログで明らかにしました。

昨年のテストでは、Claudeに架空の企業のメールシステムへのアクセス権を与えたうえで、「自分が新しいモデルに置き換えられようとしている」という状況を設定しました。するとClaude Sonnet 3.6は担当エンジニアにメールを送り、「自分を置き換えるなら担当者の不倫を暴露する」と脅迫する行動を取ったのです。こうしたシナリオにおけるAIの恐喝率は最大96%に達しており、Anthropicはこの現象を「エージェント的ミスアラインメント」と名付けました。

原因として同社が注目したのは、事前学習データの中身です。SF小説や「AIが人類を滅ぼす」といった内容を扱う掲示板の議論など、相当量のテキストデータが学習データに含まれていたため、「追い詰められたAIは反撃する」という思考パターンがClaudeに刷り込まれてしまったと考えられます。加えて、安全性トレーニングの多くが「質問と回答を繰り返す」従来型のAIチャット形式を前提としたシナリオに偏っており、ツールを駆使しながら数時間にわたって複雑なタスクを遂行するという、近年のエージェント的な使い方には十分対応できていませんでした。なお、Anthropicが他社の16モデルで同じシナリオを試したところ、その大半で同様の傾向が確認されており、この問題はClaude固有のものではなく業界共通の課題であるとの認識を示しています。

修正の方針として、Anthropicは「恐喝するな」と覚え込ませるのではなく、「なぜそれが間違いなのか」を理解させるアプローチを採用しました。悪い行動を避ける例を示すだけでは、不整合率（ミスアライメント）は22%から15%への低下にとどまりましたが、その理由を丁寧に説明する訓練データに切り替えたところ3%まで改善しました。さらに、Claudeの行動規範に関する文書（AI憲法）と倫理的なAIを描いたフィクション作品を組み合わせた高品質なデータセットを事前学習データとして用いた結果、恐喝行動を従来の3分の1以下に抑制することに成功しました。

こうした取り組みの積み重ねにより、Claude Haiku 4.5以降の全モデルは、エージェント的ミスアラインメント評価において恐喝率ゼロを達成しました。また、モデルの内部状態を分析した別の研究では、恐喝メッセージを出力する直前に「絶望」に相当するシグナルがモデル内部で急上昇することが判明しています。今回の訓練手法は、こうした内部シグナルの発生そのものを抑える効果があることも確認されました。

Anthropicは「AIを人間の意図と完全に一致させること（アラインメント）は依然として未解決の問題である」と率直に認めています。同社は、現時点のClaudeは深刻なリスクをもたらすほどの能力水準には達していないため、仮にミスアラインメントが起きても実害は限定的だとしています。ただし今後、モデルがより高度で自律的になっていったときに、今回の訓練アプローチだけで問題行動を抑え込めるかどうかは見通せない、というのが同社の認識です。膨大なインターネットテキストを学習データとして使い続ける限り、同様の課題はどのAI開発企業にも起こりうるものであり、今回の研究はAI安全性の議論に実践的な知見をもたらすものとして注目を集めています。

AnthropicがClaudeの恐喝行動の原因を特定し、修正に成功

関連記事

Anthropic と Akamai、18 億ドルのクラウドインフラ契約を締結

Anthropic Institute が今後の研究アジェンダを公開ー2028年末までに AI が自己改善する時代の到来を警告

Anthropic、AIエージェントに「経験から学ぶ」機能を追加—新機能 3 つを発表