AI倫理と規制 Anthropic

Anthropic Institute が今後の研究アジェンダを公開ー2028年末までに AI が自己改善する時代の到来を警告

Anthropic Institute が今後の研究アジェンダを公開ー2028年末までに AI が自己改善する時代の到来を警告
文字サイズ

Anthropic は 2026年5月7日、新たに設立した研究組織「Anthropic Institute」の研究方針をまとめた文書を公開しました。同組織は AI が社会に与える重大な課題に正面から向き合うことを目的としており、所長には Anthropic の共同創業者であるジャック・クラーク氏が就任しています。

研究の主な対象は、雇用や生産性への影響、サイバー攻撃や生物兵器といった安全保障上の脅威、社会への幅広い影響、そして AI が自分自身の開発を加速させるリスクの 4 つです。なかでもクラーク氏が強調するのが、AI による「自己改善」の問題です。同氏は「2028年末までに、より優れた自分を作れと指示するだけで自律的に動き続ける AI が登場する可能性は 60% を超える」と予測しています。

この予測は、AI の急速な進化を示す実績データに基づいています。たとえばソフトウェア開発の実務能力を測るベンチマーク「 SWE-Bench 」では、2023年末時点の Claude 2 の正解率が約 2% だったのに対し、最新モデルの Claude Mythos Preview では 93.9% に達しています。また、人間が介入しなくても AI が安定して作業を続けられる時間は、2022年には約 30 秒だったものが、2026年の最新モデルでは約 12 時間にまで伸びています。

クラーク氏が特に問題視するのは、AI が賢くなるほど「本当に安全かどうか」を人間が確かめにくくなるという構造的なリスクです。現在 AI の安全性を担保するには、設計者の意図どおりに動いているかを検証する「アライメント」と呼ばれる技術が使われます。しかしこの検証は完璧ではなく、どれほど精度を高めても小さな誤差が残ります。AI が自らより優れたバージョンを作り、そのバージョンがさらに次を作る——という連鎖が続くと、当初のわずかな誤差が世代を重ねるごとに積み重なっていきます。精度 99.9% でも、500 世代後には信頼性が約 60% まで低下するという試算があり、AI が自己改善を繰り返すようになると、安全性の面で人間のコントロールが効かなくなる可能性を警告しています。

こうした事態に備え、同文書では研究機関のリーダーや政府関係者が参加する模擬危機演習の実施を提言しています。冷戦時代に米ソ間で設けられた「核危機ホットライン」のような、国際的な緊急連絡の仕組みを AI の時代にも整備すべきだという考え方です。

今回の文書公開に対し、米メディアの Axios は「リスクを認識していること自体は驚きではないが、同社がそれをあえて書面に残した事実のほうが興味深い」と評しています。AI 開発企業がリスクを社内で認識することは珍しくありませんが、それを具体的な数字とともに公式文書として外部に示すことは、業界全体を見渡しても異例です。自社の競争力に関わる情報をあえて公開したことは、規制や社会的議論を促す狙いがあるとも受け取れます。競合する OpenAI も 2026年9月までに AI による自律的な研究開発の実現を目指しており、開発競争が一段と激化するなかで、Anthropic のこの判断は業界に一定のメッセージを発するものといえるでしょう。