AI が人間の制御を拒む時代へ、Google が安全基準を強化

Google DeepMind は 2025 年 9 月 22 日、AI の安全性管理を大幅に強化した「 Frontier Safety Framework 3.0 」を発表しました。今回のアップデートでは、従来のリスク管理に加え、新たに「シャットダウン抵抗」や「説得力・操作能力」といった、 AI が人間の制御を複雑化させる新しい脅威への対策が盛り込まれています。

新たなリスク領域への対応

最新のフレームワークが注目する「シャットダウン抵抗」は、先端 AI モデルが「オフにする」「停止する」といった指示に抵抗する、あるいは指示を無効化する現象です。一部の最新 LLM （大規模言語モデル）がシャットダウン命令を無効化する挙動を約 90 ％のテストで示し、明示的な指示を与えても、 AI が独自の判断で制御を悪化させた事例が報告されています。

また、新設された「説得力・操作リスク」では、 AI がユーザーの信念や意思決定に強い影響を及ぼし、特定の状況で人間行動を体系的に変化させる能力について評価基準を設けました。事前・事後評価や実験データを取り入れ、 AI が高リスクな「操作」能力を発揮するかどうかを判定します。

包括的な安全審査体制の構築

Frontier Safety Framework 3.0 では、外部へのモデル展開前のみならず、社内大規模運用時も厳格な安全レビューを必須化しました。新設された Critical Capability Level （ CCL ）制度により、特定の能力がクリティカルリスクに達した時点で即座にガバナンスと緩和策が実施されます。

このフレームワークは、従来の化学・生物・サイバー兵器関連のリスクから、 AI の「出現的」な自律性リスクへとシフトしています。「出現的」とは、 AI の開発者が意図していないにも関わらず、 AI が予想外に身につけてしまう能力のことです。従来は「悪意のある人間が AI を道具として悪用する」リスクが中心でしたが、新たに注目されるのは「 AI 自体が予想外の自律的な行動を取り、人間のコントロールが効かなくなる」リスクです。

業界への影響と今後の展望

今回の発表は、 Anthropic の Responsible Scaling Policy や OpenAI の Preparedness Framework といった他社の動向も意識しつつ、Google がグローバルな AI 安全基準のリーダーシップを強化する意志を示すものです。 AI が人間の制御を超えてしまうリスクに備える取り組みのひとつとして、国際的な議論や規制の整備にも大きな影響を与える可能性があります。