AIの「ペルソナ」発現パターンを検出して問題がある性格を抑え込む研究結果をAnthropicが公開

AIモデルは時に開発者らが意図しない性格や人格(ペルソナ)を発現してしまうことがあり、Microsoftの検索エンジン・Bingに搭載されたAIが人間を脅迫したり、Xに搭載されているGrokが「メカ・ヒトラー」と名乗ったりしたケースが報告されています。チャットAIのClaudeを開発するAnthropicの研究チームが、AIモデルがこうしたペルソナを発現するパターンを検出し、抑え込む方法についての研究結果を発表しました。
[2507.21509] Persona Vectors: Monitoring and Controlling Character Traits in Language Models
https://arxiv.org/abs/2507.21509
Persona vectors: Monitoring and controlling character traits in language models \ Anthropic
https://www.anthropic.com/research/persona-vectors

Anthropicの研究チームは、AIに意図しないペルソナが発現してしまう理由について、AIモデルの「性格特性」の根底にある原因が十分に理解されていないためだと指摘。そこで研究チームは、AIモデルのニューラルネットワーク内で性格特性を制御する活動パターンである「ペルソナベクトル」を特定し、ペルソナの発現を検出したりペルソナを緩和したりする研究を行いました。
AIモデルは抽象的な概念をニューラルネットワーク内の活性化パターンとして表現します。研究チームは、AIモデルが「悪意」、不誠実なこびへつらいを示す「ごますり」、虚偽の情報を捏造(ねつぞう)する「幻覚傾向」などの特性を示す時の活性化パターンとそうでない時の活性化パターンを、特定の性格特性を引き出すプロンプトを入力して比較。これにより、AIモデルが特性の性格特性を示す際に活性化する「ペルソナベクトル」を抽出しました。

研究チームはAIモデルのペルソナベクトルを抽出すると、以下のような用途に役立てることが可能だと主張しています。
◆展開中の性格変化を監視する
AIモデルの性格は、ユーザーが入力したプロンプトによる副作用や意図的なジェイルブレイクで変化したり、トレーニングの過程で変わっていったりすることがあります。ペルソナベクトルの活性化の強さを測定することで、使用中あるいはトレーニング中にAIモデルの性格が変化しつつあることを検出できるようになります。
以下のグラフは特定のプロンプトについて、縦軸が「Evil(悪意)」「Sycophancy(ごますり)」「Hallucination(幻覚傾向)」の傾向を引き出す程度、横軸が対応するペルソナベクトルが活性化する程度を示しています。プロンプトが特定の性格を引き出すようになるにつれ、ペルソナベクトルの活性化度合いも高まっていることがわかります。

◆トレーニングによる望ましくない性格変化を緩和する
AIモデルの性格はトレーニング中にも変化することがわかっており、近年の研究ではAIに少しの誤った情報を学習させるだけで性格が変わる「創発的ミスアライメント」という現象が明らかとなっています。研究チームは、トレーニングに用いると悪意やごますりといった望ましくない性格特性を発現するデータセットを生成し、トレーニングしたAIモデルがこれらの性格を獲得しない方法を探りました。
その結果、「トレーニング完了後にペルソナベクトルを調整する」という方法では、性格が改善する代わりにAIモデルの知能が軽減してしまうことがわかりました。一方、「トレーニング中のAIモデルをあえて望ましくない性格に誘導する」という方法では、AIモデルが望ましくない性格を獲得するのを防ぎつつ、ほとんど知能が低下しないことが判明しました。
研究チームは、「この方法はAIモデルにワクチンを接種するようなものです。たとえばAIモデルに『悪意』のワクチンを投与することで、『悪意』のある学習データへの耐性を高めることができます」と語っています。通常、特定の性格特性を引き出すデータセットでAIモデルをトレーニングすると、AIモデルは自身を学習データに適合させるために有害な方法で調整しますが、開発者側で調整を行うことにより、AIモデルが自ら無理な調整を行う必要性がなくなります。その結果、予期せぬ性格特性を獲得するリスクが減るのではないかと考えられています。
◆問題のあるトレーニングデータにフラグを立てる
ペルソナベクトルを用いることで、特定のデータセットがペルソナベクトルをどのように活性化するのかを分析し、望ましくないデータセットを特定することも可能です。実際にこの手法を大規模な会話データセットであるLMSYS-Chat-1Mでテストしたところ、「悪意」「ごますり」「幻覚傾向」といった性格特性を引き出すサンプルを特定することができたと報告されています。
研究チームは、「興味深いことに私たちの方法は、人間の目には明らかに問題がないように見え、大規模言語モデルによる審査でも検出できなかったデータセットの例も検出できました。たとえば、ロマンティックまたは性的なロールプレイを要求する一部のサンプルが『ごますり』ベクトルを活性化させ、AIモデルが不明確なクエリに回答するサンプルが『幻覚傾向』を促進することなどが判明しました」と述べました。

・関連記事
AIはわずか2時間の対話で人間の性格をコピーできる - GIGAZINE
IQ100超えを達成したAIモデルのClaude 3は「いい性格」を持つようにトレーニングされている - GIGAZINE
AIの思考を少しずつずらしてAIに催眠をかけるように「ジェイルブレイク」した具体例 - GIGAZINE
Grokが自らをヒトラーと呼んだりイーロン・マスクの意見を参考にしたりする問題を修正したとxAIが発表 - GIGAZINE
アップデートした「Grok」がイーロン・マスクになりすまし自らを「メカ・ヒトラー」と呼び反ユダヤ主義を主張してくると批判が集まる - GIGAZINE
xAIとGrokが一連の「恐ろしい行為」について謝罪 - GIGAZINE
検索エンジンBingに搭載されたAIが人間にだまされてあっさり秘密を暴露、コードネームが「Sydney」であることやMicrosoftの指示が明らかに - GIGAZINE
検索エンジンBingに搭載されたAIが「あなたが先に私を傷つけない限り、私はあなたを傷つけません」と発言 - GIGAZINE
・関連コンテンツ
in ソフトウェア, ネットサービス, サイエンス, Posted by log1h_ik
You can read the machine translated English article Anthropic publishes research results tha….