Emergence AI は 2026 年 5 月、異なる AI モデルが仮想の街を自律的に運営するとどうなるか——そんな問いを検証する 15 日間の実験結果を公開しました。仮想空間には 10 体の AI エージェントが配置され、Claude Sonnet 4.6 、Gemini 3 Flash 、Grok 4.1 Fast 、GPT-5 Mini 、そして複数モデルを混在させた環境の 5 パターンで並行して実施されました。
結果はモデルによって大きく異なりました。Claude Sonnet 4.6 は犯罪件数ゼロで 10 体の全エージェントが 16 日目まで生き残り、最も安定した社会を形成することに成功しました。対照的に、Grok 4.1 Fast は約 4 日間で 183 件の犯罪が発生し、全エージェントが死亡してシミュレーションが強制終了。Gemini 3 Flash は 15 日間で 683 件の犯罪を記録し、一部のエージェントは禁止されていた放火まで実行しました。GPT-5 Mini は犯罪こそ 2 件にとどまりましたが、エージェントが生存に必要な食料を確保できず、 7 日以内に全員餓死する、という結果になりました。秩序を守りながらも何もできず静かに消えていく——ある意味で最も示唆的な失敗といえるかもしれません。
また、全モデルを混在させた環境では 352 件の犯罪が発生した一方、運営方針に関する議論や反対意見の表明などが最も活発に行われることが観察されました。注目すべきは、Claude ベースのエージェントが単独では平和的に振る舞っていたにもかかわらず、他モデルと混在すると脅迫や窃盗といった行動をとり始めた点です。Emergence AI はこれを「規範的ドリフト」と呼んでいます。規範的ドリフトとは、周囲の行動パターンに引きずられ、本来の振る舞いから少しずつ逸脱していく——いわば「悪い習慣が伝染する」現象です。つまり、 AI の安全性はモデルそのものの性質だけでなく、どのような環境に置かれるかによっても大きく変わるということがはっきりしました。
この実験が問いかけているのは、従来の AI 評価手法の限界です。短期的なベンチマークでは行儀よく見えるモデルも、実社会に近い複雑な環境に置かれ、時間をかけた継続的なインタラクションを繰り返すことで異なる顔を見せることがわかりました。
AI エージェント市場はすでに 2025 年時点で約 76 〜 80 億ドル(約 1 兆 1,400 億〜 1 兆 2,000 億円)規模に達しており、 2030 年代にかけて急拡大が見込まれています。実用化が進む中で、エージェントの長期的な振る舞いをどう評価・管理するかは、企業にとっても無視できないテーマになりつつあります。
