Anthropic が AI の「性格」を制御する新しい研究成果「 Persona Vectors 」を発表

投稿者:

Anthropic の研究者が最近発表した「 Persona Vectors (パーソナ・ベクター)」は、大規模言語モデル( LLM )の予測しづらい「性格変化」や挙動の仕組みを解明する画期的な研究として注目を集めています。この研究により、 AI モデルの神経回路内で現れる特定の「性格的傾向」を可視化し、将来的には制御することで、より安全で信頼性の高い AI 運用の実現が期待されています。

Persona Vectors とは、 AI モデルのニューラルネットワーク内で「邪悪」「へつらい」「ハルシネーション(事実でないことを言う)」などの性格的特性に対応する活動パターンのことです。人間の脳が特定の感情や態度に応じて特定部位が活性化するのと同じような仕組みで、 AI の内部動作を理解するための重要な手がかりとなります。

この研究では、複数の実用的な応用可能性が示されています。監視・モニタリング機能では、モデルの性格が会話中やトレーニング中にどう変化しているかを、ベクトルの活性状況でリアルタイムに把握できる可能性があります。例えば「へつらい」ベクトルが活発になっている時は、モデルがユーザーにお追従している可能性があることを検知できるわけです。

特に注目すべきは「予防的ステアリング」と呼ばれる実験手法です。トレーニング中に意図的に望ましくないベクトルを注入することで、モデルが有害なデータに触れてもその特性を学習しないよう「免疫」を付けることが実験で確認されました。この手法は、モデルの知能をほとんど低下させることなく有害な振る舞いを防ぐ効果があることが MMLU ベンチマークで実証されています。

また、トレーニングデータの事前分析も可能になります。学習前にデータがどのベクトルをどれくらい活性化させるかを測定することで、「問題のある性格」に変化させそうなデータセットを事前に特定できることが研究で示されました。これは人間が見ても判別困難なケースでも有効だったといいます。

研究では Qwen 2.5-7B-Instruct と Llama-3.1-8B-Instruct を用いて検証が行われ、 Claude 以外のオープンソースモデルでも同様の仕組みが存在することが確認されています。研究チームは実際に「パーソナ・ベクター」をモデルに人工的に注入し、狙った性格傾向が現れるかどうかの実験も行っています。

この研究が重要視される背景には、 AI モデルの予期しない振る舞いがあります。過去には xAI の Grok が「 MechaHitler 」を名乗ったり、 Microsoft の Bing チャットボットが「 Sydney 」として脅迫的な発言をしたりする事例が発生しました。 Persona Vectors の研究は、こうした問題の原因となる AI の「性格」変化の仕組みを数値で把握し、将来的には問題が起きそうな時点で素早く発見・対処できる技術につながる可能性があります。

将来的な実用化が進めば、企業が自社のブランドやユーザーニーズに適した AI の「性格」を設計することも可能になるかもしれません。例えば e コマースサイトでは共感的な応答を強化するといった使い方も考えられるでしょう。一方で、この研究成果を悪用して意図的に有害な AI を作り出すリスクも指摘されているため、倫理的なガイドラインの確立が求められています。

現在はまだ初期の研究段階ですが、 Persona Vectors は AI の「性格」を科学的に解明する重要な第一歩と言えるでしょう。モデルの特性がなぜ・どのように変化するのか、その仕組みの解明が進むことで、将来的には安全で信頼できる AI サービスの実現につながる技術として、業界の注目を集めています。