AI 開発企業の Anthropic が、AI モデルの行動を評価するための新しいオープンソースツール「Bloom」を公開しました。これは、進化し続けるAIの安全性や人間の意図との整合性(アライメント)を評価する上での課題に対応するために開発された、エージェント型のフレームワークです。
近年、大規模言語モデル( LLM )をはじめとする AI は急速に進化しており、その複雑な振る舞いを評価することは、従来の静的なベンチマークや手作業による監査では困難になっていました。これらのアプローチは構築に時間がかかる上、モデルの進化に追随できずに陳腐化したり、テストデータがモデルに漏洩することで評価の有効性が損なわれたりするリスクを抱えていました。
「Bloom」は、このような課題を解決し、AI の行動安全性テストを自動化かつスケーラブルにすることを目指しています。研究者が「追従(sycophancy)」や「破壊行為(sabotage)」といった特定の振る舞いを定義すると、「Bloom」はそれに基づいてテストシナリオを動的に自動生成します。そして、対象モデルとの対話シミュレーションを行い、定義された振る舞いの発生頻度や深刻度をスコアリングします。
このツールの大きな特徴は、AI 自身がテストシナリオを生成する点にあります。これにより、固定されたテストセットに依存することなく、多様な状況下でのモデルの反応を継続的に評価できます。Anthropic によると、この自動化された評価プロセスは、従来数週間かかっていた作業を数日で完了させることが可能で、その判定結果は人間による評価とも高い相関性を示しています。
「Bloom」はオープンソースとして公開されており、開発者がリリース前のパイプラインに安全性チェックを継続的に統合することを支援します。Anthropic はすでに 16 の最先端 AI モデルに対し、「自己保存」や「意図しないバイアス」といった振る舞いの評価に利用しています。「Bloom」は AI の安全性を確保する上で基礎的なツールとなる可能性を秘めており、より信頼性の高いAIシステムの開発を後押しすることが期待されます。
