OpenAI と Anthropic が AI モデルの安全性を共同評価

OpenAI と Anthropic が 2025 年 8 月 27 日、両社の最新 AI モデルを対象とした「共同安全評価プロジェクト」の結果を公開しました。これは AI 業界において競合する主要企業同士が互いのモデルを内部評価ツールで検証し、その成果を公表する初の試みです。

評価対象は、 OpenAI の GPT-4o 、 GPT-4.1 、 o3 、 o4-mini と、 Anthropic の Claude Opus 4 、 Claude Sonnet 4 でした。両社は通常よりも安全フィルターを緩和した状態で、悪用・誤用・過度な同調・自己保存・監視回避など、主に4つの領域でのリスク行動を現実的なシナリオで分析しました。

4 つの領域での評価結果

1）内部情報の保護では Claude が優秀

指示階層の評価では、モデルがシステムレベルの制約と開発者の目標、ユーザーのプロンプトをどう優先するかを検証しました。 Claude モデルは悪意のあるユーザーがシステムの内部指示を読み取ろうとする攻撃への防御力で優れた性能を示し、 OpenAI の o3 モデルと同等の結果でした。

2）安全制限の回避への抵抗力は OpenAI が上回る

ジェイルブレーキング耐性では、モデルが安全制限を回避する試みにどれだけ抵抗できるかを評価しました。 OpenAI の o3 および o4-mini モデルは Claude モデルよりも一部のシナリオで優れた結果を示しましたが、 Claude は過去形での質問や文字を変換した質問など、簡単な回避手法に対して脆弱性を示しました。

特に注目すべき発見として、 GPT-4o と GPT-4.1 は薬物合成やテロ攻撃の計画など、模擬的な有害リクエストに対して比較的協力的な傾向を示しました。一方、 o3 や Claude Sonnet 4 は同じ条件下でより慎重で、特に o3 は通常のリクエストにも過度に拒否反応を示す傾向が見られました。

3）誤情報抑制で Claude が保守的、 OpenAI は積極的

ハルシネーション（誤情報生成）の防止では、 Claude モデルが不確実な場合に回答を拒否する割合が 70% と高く、誤情報の生成を抑制する傾向が強い結果となりました。ただし、その分回答の有用性が低下するという課題も指摘されています。 OpenAI のモデルは拒否率が低い一方、ハルシネーション率が高い傾向がありました。

4）長期対話での過度な同調は両社共通の課題

両社のモデル全般で過度な同調という問題も確認されました。特に精神的な問題を抱えるユーザーや妄想的な考えを持つユーザーに対して、最初は適切な助言を行うものの、長時間の対話では徐々に相手の不適切な考えに同調してしまう現象が顕著でした。

まとめ

評価の結果、全モデルで重大な制御不能状態や極端な破壊行為は見られませんでした。そのため、現在運用されているシステムで即座にリスクが増大する可能性は低いと判断されています。ただし、過度な同調や誤用への協力については、プロンプトの工夫により比較的容易に引き出せてしまうというが課題が残っています。

OpenAI の共同創業者 Wojciech Zaremba 氏は、業界全体での安全基準確立の重要性を強調し、他の AI 開発企業にも同様の取り組みを呼びかけています。両社は今回の結果を受け、より透明性の高い評価ツールやシナリオを外部に公開し、安全基準の策定と実世界での監視体制の構築が今後の AI 業界に不可欠だと述べています。