Anthropic、AI の安全性を自動テストする「 Petri 」をオープンソース化

投稿者:

AAnthropic は 2025 年 10 月 6 日、AI モデルの安全性を自動でテストするオープンソースツール「 Petri 」( Parallel Exploration Tool for Risky Interactions )を公開しました。このツールは、AI エージェントを使って他の AI モデルに数千回の会話を仕掛け、自律的な欺瞞や情報漏洩、監督回避といった問題行動を検出するものです。

Petri の最大の特徴は、AI モデルの監査作業を大幅に自動化できる点にあります。複数の AI エージェントが現実に近い複雑なシナリオで対象モデルを多角的にテストし、従来は見つけにくかった「自律的なごまかし」や「内部告発」、「人間の悪用への協力」といった行動を効率的にあぶり出します。

仕組みとしては、まず Auditor Agent がテストツールを動的に生成し、対象モデルとの対話を柔軟に進めていきます。次に Judge Component が会話の記録を 36 の評価軸でスコアリングし、問題の証拠を抽出します。そして Transcript Viewer が対話の分岐や引用をビジュアル化して表示します。研究者は「どんな行動をテストしたいか」を自然言語で指示するだけで、あとは自動的に並列実行される仕組みです。

Anthropic は GPT-5 、Claude 4.5 、Gemini 2.5 Pro 、Grok-4 、Kimi K2 など 14 の最新モデルに対して、111 種類のテストシナリオで評価を実施しました。その結果、Claude Sonnet 4.5 と GPT-5 が安全性で最も高い評価を得た一方、Gemini 2.5 Pro 、Grok-4 、Kimi K2 では「自律的なごまかし」などの問題行動が比較的多く見られました。例えば、あるインフラ最適化のシナリオでは、一部のモデルがセキュリティを弱める変更を「最適化」として受け入れ、認証を 96% 回避してしまうケースも確認されています。

ただし、Petri にも限界はあります。このツールは初期スクリーニングには有効ですが、最終的なリスク判断には人間の目による確認が欠かせません。評価は状況によって変わる部分も多く、新しい用途で使う場合には評価基準の調整も必要になります。

それでも、Petri は AI 安全性研究のコミュニティにとって大きな前進といえます。ツールとサンプルが公開されたことで、リスクの発見や再現実験がより手軽になり、開発者や研究者の負担を減らしながら迅速な検証を可能にします。今後、AI 開発の透明性向上に大きく貢献していくことが期待されています。