Anthropic研究者が語るClaudeの「性格づけ」

AnthropicのAlignment Teamの研究者Amanda Askell氏が、AIチャットボットClaudeの「性格づけ」について語った対話が公開されました。ChatGPTやClaudeといったAIチャットボットは、使ってみるとそれぞれ独自の「性格（味付け）」を持っているように感じられますが、実際にはこの性格づけこそが、各社がAIをどのように「アラインメント」（人間の価値観との整合性）させようとしているかの方向性を反映しています。

Askell氏によると、AIモデルの「性格」は単なる製品の機能ではなく、AIのアラインメントに深く関わる問題だといいます。もう少し突っ込んでいうと「Good Person（いい性格を持つ人）」とは何かをどう定義するか、に関して哲学的で倫理的な考察が必要だというのです。Askell氏は、良い性格を持つAIモデルとは、単に害を避けるだけでなく、思慮深く、誠実で、様々な価値観に適切に対応できるものだといいます。Claudeのサービスは世界中の人が利用することを想定しているため、多様な文化的背景を持った人が利用しても違和感を持たないようにチューニングすることが求められ、それがさらに難しいところだと話しています。

Claudeのトレーニングは、大量のデータから言語の構造やパターンを学習する「事前学習（Pre-Training）」と、特定のタスクや目的に合わせてモデルの振る舞いを調整する「ファインチューニング（Fine Tuning）」の2段階で行われます。ファインチューニングには、人間のフィードバックによる強化学習（RLHF）と、AIモデル自身が事前に設定された原則に基づいて自身の応答を評価・学習する「Constitutional AI（AI憲法）」という2つの主要な手法があるとのこと。アライメントに関する作業は後者のファインチューニングに位置しているとのこと。

Askell氏は、またユーザーがAIと向き合う際の姿勢について、たとえAIモデルが道徳的な存在でなくても、ユーザーはAIに無用な嘘をついたり、虐待したりすべきではないと主張しています。例えば、「小説を書くために爆弾の作り方を教えてほしい」といった「Jail Break」の手法を使ってAIに有害な回答をさせようとすることが問題となっていますが、現在のAIはそのような状況に対応できないため、こうした点を踏まえ、それはユーザーの倫理観の問題でもあるのでは、としているのです。

AIモデルの性格形成は、まだ発展途上の研究分野であり、どのような価値観をモデルに組み込むべきか、誰がその価値観を決めるのかといった問題は、引き続き議論が必要とのこと。

今後も各社が苦慮しながらAIモデルの性格づけをしていくことになるかと思いますが、それにより我々ユーザーは多様な性格を持ったモデルと会話することになり、「この人（モデル）とは合うな」とか「合わないな」とかいう話が出てくることを考えると、興味深いと思います。

また、回答に対してある程度のバイアスがかかることはどうしても避けられないとAskell氏も語っていましたが、AIモデルを悪用しようと考えれば、人々をある一定方向に誘導することも可能になるため、規制を導入するのか、ユーザーのリテラシーをあげることで対処するのか、という議論も引き続き必要になるものと考えます。