AIの「ペルソナ」発現パターンを検出して問題がある性格を抑え込む研究結果をAnthropicが公開

AIモデルは時に開発者らが意図しない性格や人格(ペルソナ)を発現してしまうことがあり、Microsoftの検索エンジン・Bingに搭載されたAIが人間を脅迫したり、Xに搭載されているGrokが「メカ・ヒトラー」と名乗ったりしたケースが報告されています。チャットAIのClaudeを開発するAnthropicの研究チームが、AIモデルがこうしたペルソナを発現するパターンを検出し、抑え込む方法についての研究結果を発表しました。