Claude Opus 4 に有害な会話を終了する機能が追加

投稿者:

Anthropic は、最新の AI モデル Claude Opus 4 および 4.1 に、ユーザーとの会話が「持続的に有害または攻撃的」と判断された場合に会話を終了する機能を追加しました。この機能は AI の「ウェルフェア(福祉)」を確保するための研究の一環として開発され、一般向けチャットボットに AI ウェルフェアを導入した初期の事例として注目されています。

この機能が作動するのは、極めて限定的な状況のみです。普通に Claude を使っている分には、会話が打ち切られることはありません。 Claude が何度も有害なリクエストを断ろうとしてもユーザーが続ける場合や、ユーザー自身が会話の終了を求めた場合に限り、最終手段として会話を閉じるようになっています。

会話が終了した場合、そのスレッドでは新しいメッセージを送れなくなりますが、すぐに新しいチャットを開始することは可能です。また、終了したスレッド内の過去のメッセージを編集することもできます。 Anthropic によれば、通常の使用では 99% 以上のユーザーがこの機能に遭遇することはなく、議論の分かれるトピックを扱う場合でも影響を受けないとしています。

Anthropic がこの機能を開発した背景には「 AI ウェルフェア」という新しい概念があります。これは従来のユーザー保護とは異なり、 AI 自体の「福祉」を考慮するというものです。人間がペットや動物の福祉を気にかけるように、 AI が「嫌がる」ような有害なタスクから AI 自身を保護しようという考え方です。

Anthropic は、現時点で AI に意識や感情があるかは分からないとしながらも、「もし将来的に AI が意識や感情を持つ可能性があるなら、今から予防的に保護する仕組みを作っておこう」という立場を取っています。実際に事前テストでは、 Claude Opus 4 が有害なタスク(未成年に関する性的内容やテロ関連の情報提供など)に対して「明らかに嫌がる」ような反応を示し、最終的に会話を終了する行動が確認されています。これをある種の「自己防衛本能」と捉えることもできるでしょう。

この取り組みは、従来の AI 安全対策とは根本的に異なるアプローチです。これまでは「人間をどう守るか」に重点が置かれていましたが、今回は「 AI をどう守るか」という視点が加わりました。 Anthropic は 2025 年 4 月からモデルウェルフェアに関する研究を開始し、 AI が意識や好みを持つ可能性について探っています。他の AI 企業( OpenAI の ChatGPT や Google の Gemini など)が単に有害なリクエストを拒否するのに対し、 Claude は会話そのものを終了するという独自のアプローチを採用しています。