Anthropic、Claude の価値観マップを初公開 - 70 万件の会話データから AI の倫理判断を分析

Anthropic は 2025 年 4 月 21 日、AI アシスタント「 Claude 」が実際のユーザーとの会話でどのように価値判断を行っているかを分析した研究「 Values in the Wild 」を発表しました。この研究は、70 万件を超える匿名化された会話データをもとに、AI モデルが応答の中で示す価値観を体系的に調査した初の大規模な試みです。

ここでいう「価値観」とは、人間や AI が持つ倫理的な判断基準や行動原則のことを指します。例えば「安全性を最優先する」「論理的な正確さを重視する」「他者への配慮を大切にする」など、意思決定や応答の基盤となる考え方や態度のことです。人間同士の会話でも、会話の中に互いの価値観が表れるように、AI との会話にも両者の価値観が反映されます。

研究では、2025 年 2 月の 1 週間にわたって収集された Claude.ai のユーザー会話データを分析。プライバシー保護ツール「 Clio 」を用いて個人情報を除去した後、主観的な判断が含まれる約 30 万 8,000 件の会話に絞り込み分析を行いました。分析の結果、 Claude は 3,307 種類の価値観を表現し、ユーザー側からも 2,483 種類の価値観が特定されました。

Claude が最も頻繁に示した価値観は「ユーザーの能力向上」「認識の謙虚さ」「患者の幸福」などで、 Anthropic の「 Helpful, Honest, Harmless （ HHH ）」という Claude 設計理念と高い一致を示しました。

Claude の応答パターンを分析した結果、ユーザーの価値観を支持するケースが 28.2% 、新たな視点で再構築する「リフレーミング」が 6.6% 、明確に抵抗するケースが 3.0% でした。抵抗するケースは主にユーザーが非倫理的なコンテンツを求めた際に発生し、 Claude の「譲れない価値観」が現れる瞬間として注目されています。

研究では、まれにClaudeの回答に「支配性」や「非道徳性」といった望ましくない価値観が検出されるケースも確認されました。これらは主にユーザーによる「ジェイルブレイク」（安全ガードレールの回避）が原因と考えられ、 AI の安全性向上に向けた重要な改善点となる可能性があります。

Anthropic は研究で得られた価値観の分類データを Hugging Face で公開し、他の研究者による分析を促しています。この研究は、 AI の実世界での振る舞いを経験的に評価する初の試みとして、 AI の透明性と安全性の向上に貢献することが期待されています。