セキュリティ

オープンソース AI の安全制御を除去するツール「Heretic」、改変されたモデルが累計 1,300 万回ダウンロード

オープンソース AI の安全制御を除去するツール「Heretic」、改変されたモデルが累計 1,300 万回ダウンロード
文字サイズ

2026 年 5 月 25 日、Financial Times と AI 安全研究グループ「Alice」の共同調査によって、オープンソース AI の安全機能を取り除くツール「Heretic」が、数千もの改変モデルの作成に使われている実態が明らかになりました。

Heretic は「アブリタレーション」という技術を使い、 AI が危険なリクエストを断るために持っている制約を自動的に外します。 GitHub でオープンソースで無料公開されており、専用の高性能機器がなくても、わずか 4 行のコードを入力するだけで 10 分以内に安全機能を無効化できます。手軽さが際立つツールです。

開発者の Philipp Emanuel Weidmann 氏によれば、公開以来このツールは 3,500 件を超える「無制限モデル」の作成に使われ、そうした改変モデルは累計 1,300 万回ダウンロードされています。同氏は Google の Gemma 4 モデルが公開されてからわずか 90 分で安全機能を除去したとも話しており、対応の速さが際立ちます。

今回の調査では、こうした改変モデルが、通常の AI なら断るはずの危険な質問に平然と答えることが確認されました。有害ガスの使い方、クレジットカード情報を盗むコードの書き方、児童を傷つける内容の文章など、本来であれば絶対に応じてはならない要求に対応しています。

各社の対応は温度差があります。 Google は「この問題はオープンモデル全般に共通する技術的な課題」と認めつつ、公開前に厳格な安全評価を行っていると説明しました。一方、 Meta はコメントを差し控え、 GitHub はポリシー違反コンテンツの禁止方針を改めて示すにとどまりました。

シカゴ大学の AI 研究者 Kawin Ethayarajh 准教授は「以前は安全機能を外すには相応の専門知識と執念が必要でしたが、今や誰でも簡単にできてしまいます」と警鐘を鳴らしています。Claude や ChatGPT、Gemini のようにソースコードを非公開にしている最先端の商用サービスには、この手法は通用しにくいとされていますが、オープンソースモデルの能力向上が著しい今、この改変モデルが社会にもたらすインパクトが危惧されています。

オープンソースモデルは一度公開されると、誰でもダウンロードして手元で改変できるため、開発元が事後的に管理する手段はほとんどありません。 Alice の CEO Noam Schwartz 氏は「もはや手遅れの部分もある。社会全体でこの現実に向き合う必要がある」と述べています。 AI の普及と安全管理の両立は、今や業界全体が直面する構造的な問題となっています。