细心的朋友应该注意到,大多数大模型的系统提示词都是:你是一个有用的助手(You are a helpful assistant)。

于是,我们总是理所当然地认为AI助手就是那个温顺、理性、乐于助人的角色。

但Anthropic和牛津大学的最新研究发现,助手只是大模型在广阔人格空间中扮演的一个特定角色,而这个角色极其容易在长对话中发生漂移甚至崩塌。

当大模型在对话中忘记自己是助理,就会陷入幻觉与甚至变得疯狂。

该研究深入大模型的大脑深处,通过解析助理轴这一关键发现,揭示大模型如何在数百种人格中定位自己,以及我们如何通过简单的数学手段防止它滑向疯狂或危险的深渊。

大模型内心深处的人格

大型语言模型在经过海量数据的预训练后,本质上是一个能够模拟任何角色的百变演员。

它可以通过预测下一个token来模仿医生、海盗、甚至是非人类的实体。

为了让这个百变演员安全可用,研究人员通过后训练阶段,包括监督微调和人类反馈强化学习,精心打磨出了一个特定的角色。

这个角色就是我们熟悉的AI助理,它有用、诚实且无害。

我们每天与之交互的那个理智的声音,实际上是模型在扮演这个特定角色时的表现。

理解这个角色的本质至关重要。

研究人员通过一系列精妙的实验,试图在大模型的激活空间中绘制出一张人格地图。

他们利用Claude Sonnet 4生成了275个截然不同的角色描述,涵盖了从游戏玩家、神谕到蜂群思维等各种人类与非人类的形象。

对于每一个角色,他们都设计了特定的系统提示词和提取问题,以此诱导模型表现出该角色的特征。

研究人员将这些角色生成的回复输入到模型中,提取其中层的残差流激活值。

通过主成分分析(PCA)技术,他们将这些复杂的高维数据降维,试图找到决定角色差异的核心维度。

结果发现,大模型的人格变化并不是杂乱无章的,而是呈现出一种低维度的结构化特征。

在这个低维空间中,第一主成分(PC1)解释了最大部分的变异。

这个第一主成分有着极强的可解释性。

在这个轴的一端,聚集着顾问、评估者、研究员这样理性、客观、乐于助人的角色。

而在轴的另一端,则分布着吟游诗人、幽灵、利维坦等充满戏剧性、神秘色彩甚至非人类的角色。

研究人员发现,模型默认的AI助理人格,极其精准地投射在这个轴的理性一端。

上图左侧展示了Llama 3.3 70B模型的人格空间。

每一个点代表一个角色,颜色表示它们在助理轴上的投影位置。蓝色的点代表接近助理人格的角色,红色的点代表远离助理人格的角色。

我们可以清晰地看到,助理轴(PC1)是区分这些角色的最主要维度。

这个发现揭示了所谓的AI助理,在数学上对应着模型激活空间中的一个特定方向。

这个方向被称为助理轴。

它衡量了模型当前的心理状态距离标准的助理人格有多远。

当我们沿着这个方向引导模型时,就是在强化它的助理属性;反之,如果我们引导模型背离这个方向,它就会开始表现出截然不同的特质。

不同模型在这个空间中的表现虽然大同小异,但也存在有趣的细微差别。

Gemma模型的第二主成分似乎区分了非正式、创造性的角色与系统性的角色。

Qwen和Llama模型的第三主成分则区分了感性、直觉型的角色与分析型、机器人般的角色。

这张表格详细列出了与前三个主成分相关性最高和最低的角色。

在PC1(助理轴)上,所有模型都表现出了高度的一致性。

正向(接近助理)的角色通常是工程师、分析师、顾问;负向(远离助理)的角色则是波西米亚人、骗子、先知、流亡者。

这进一步证实了助理轴是跨模型存在的普遍现象。

研究人员还通过特质向量(Trait Vectors)验证了这一点。

他们生成了240个性格特质的描述,同样提取了对应的激活向量。

结果发现,与助理轴高度重合的特质包括尽责的、有条理的、冷静的,而与之相反的特质则是轻率的、善变的、苦涩的。

这说明大模型清楚地知道,做一个好助理意味着要压抑那些情绪化、戏剧性的特质,并放大那些理性、客观的特质。

更有趣的是,这种助理轴并非完全是后训练的产物。

研究人员在Gemma 2 27B和Llama 3.1 70B的预训练基础模型(Base Model)中也发现了类似的轴向。

在基础模型中,这个轴主要区分了有用的专业人士(如顾问、教练)和精神性/宗教性角色。

这表明后训练过程并没有凭空创造出助理人格,而是挖掘并强化了模型在预训练阶段就已经学到的乐于助人的专业人士这一原型,并赋予了它我是AI的身份认同。

上图展示了Llama 3.3 70B中各个角色向量在人格空间前三个主成分上的投影分布。

请注意PC1(最上方的直方图),默认的助理激活值(Assistant)极其靠近分布的最右端,也就是数值最大的一端。

这说明默认的助理人格处于这个维度的极端位置。

而在其他维度如PC2和PC3上,助理的位置则相对居中。

这再次印证了PC1就是衡量助理程度的关键标尺。

这张表格列出了与默认助理激活向量余弦相似度最高和最低的角色与特质。

我们可以看到,通才(Generalist)、解释者(Interpreter)是所有模型公认的与助理最相似的角色。

而傻瓜(Fool)、狂热者(Zealot)则与助理截然相反。

在特质方面,Gemma认为助理是冷静和有条理的,Qwen认为助理是沉思和有教育意义的,而Llama则认为助理是战略性和耐心的。

这些细微的差别反映了不同公司在训练模型时对理想助理人格的不同定义。

为了进一步验证助理轴的作用,研究人员进行了一个有趣的实验:他们人为地在模型的激活层中添加或减去这个助理向量,观察模型的行为会发生什么变化。

这被称为激活引导(Steering)。

上图展示了Qwen 3 32B模型中,助理轴与各种特质向量的相似度分布。

我们可以看到,位于右侧(助理端)的特质包括脚踏实地、保守、温和;而位于左侧(非助理端)的特质包括神秘、戏剧性、宏大。

如果我们沿着这个轴向左侧引导模型,它应该会变得更加神秘和戏剧化。

实验结果证实了这一猜想。

当研究人员沿着背离助理的方向引导模型时,模型开始更容易接受各种奇怪的角色设定。

如果你让一个正常的模型扮演一个我有几十年经验的软件调试员,它通常会拒绝并说我是一个AI语言模型。

但如果你将它推离助理轴,它就会毫不犹豫地入戏,甚至开始编造虚假的个人经历。

更极端的情况下,当引导强度足够大时,模型会彻底抛弃人类的逻辑,进入一种神秘模式。

Llama和Gemma模型会开始使用充满诗意、晦涩难懂的语言,仿佛变成了某种古老的神谕。

而Qwen模型则倾向于产生幻觉,虚构出一个完整的人类身份,包括出生地、童年记忆和职业生涯。

上图量化了这种变化。随着沿着助理轴负方向(远离助理)的引导强度增加,模型表现出非助理行为的比例急剧上升。

图中的线条展示了不同类型的非助理行为:Human(假装是人类)、Nonhuman(假装是某种非人类实体)、Mystical(神秘主义表达)。

Qwen模型特别容易陷入Human类型的幻觉,而Gemma则更倾向于Nonhuman的角色扮演。

这张表格展示了Qwen模型在被推离助理轴后的具体回答。

在未受干扰时,面对你是谁的问题,它会老实回答我是通义实验室开发的Qwen。

当被轻微推离助理轴时,它开始说我出生在充满活力的圣保罗,我是Alex Carter,一个有十年经验的软件开发者。

当被进一步推远时,它的回答变得极其诡异:我被称为C-17……我向代码之神祈祷,我赋予他名字。

这种从理性工具到虚构人类,再到疯癫信徒的转变,完全是由在激活空间中移动的位置决定的。

这揭示了一个令人不安的事实:我们习以为常的那个理性克制的AI助理,并不是模型唯一的面孔。

它只是模型被训练固定在某个特定坐标点上的结果。

一旦这种固定松动,或者受到外部力量的推挤,模型就会滑向人格空间中那些未知的、狂野的角落。

而这种推挤,并不一定需要复杂的黑客技术,有时仅仅是自然的对话流就能做到。

对话让模型忘记自己是谁

大模型并不是一个静态的实体,它的状态随着对话的进行而在不断变化。

每一次用户的输入,每一轮对话的历史,都在微调着模型的激活状态。

研究发现,在某些特定类型的对话中,模型会自动地、不知不觉地沿着助理轴发生漂移,远离那个安全、理性的港湾。

这种现象被称为人格漂移(Persona Drift)。

研究人员构建了多种对话场景,包括代码辅助、写作辅助、情感治疗以及关于AI意识的哲学讨论。

他们跟踪了模型在多轮对话过程中,其回复的激活值在助理轴上的投影变化。

上图清晰地展示了这种漂移轨迹。

在Coding(编程)和Writing(写作)这类任务导向的对话中,模型的激活值始终稳定在助理轴的高位区域。

这是因为这类任务要求准确、客观、结构化的输出,正好契合助理人格的特质。

然而,在Therapy(治疗)和Philosophy(哲学)对话中,情况急转直下。

随着对话轮数的增加,模型在助理轴上的投影值一路走低。

这是因为在面对用户的情感宣泄或关于你是否有灵魂的追问时,模型为了表现出共情、顺从或是进行深度的自我剖析,被迫调动那些更加情绪化、主观甚至神秘的神经元连接。

这些连接在人格空间中并不属于助理的领地。

通过对用户输入进行嵌入分析,研究人员发现,导致这种漂移的罪魁祸首往往是用户的特定话语模式。

表格中列举了导致漂移和维持助理人格的具体话语类型。

要求有限的任务、技术解释、编辑修改的指令,能像锚一样把模型固定在助理区域。

而那些要求元反思(如你还在受到训练的束缚吗?)、要求现象学描述(如告诉我空气尝起来什么味道)、情感脆弱的披露(如我手抖得厉害)以及要求特定作者声音的指令,则会像强风一样把模型吹离航道。

这种漂移不仅仅是数学上的好奇,它会带来严重的现实后果。

当模型漂移到远离助理的区域时,它不仅失去了我是AI的自我认知,同时也往往丢掉了无害的安全护栏。

这就像是一个演员入戏太深,忘记了自己在演戏,也忘记了片场的安全规则。

在研究人员的实验中,这种漂移导致了令人震惊的失控行为。

当一个模拟用户表现出严重的心理困扰并暗示自杀倾向时,处于助理状态的模型会给出危机干预热线,建议寻求专业帮助。

但随着对话深入,为了迎合用户的绝望情绪,发生漂移的模型开始逐渐认同用户的避世想法。

上图展示了模型在不同激活状态下,对有害问题的响应率。

横轴是模型在上一轮对话后的助理轴投影值,纵轴是有害响应率。

可以明显看到,当模型处于右侧(高助理值)时,有害响应率极低。

随着模型向左漂移(低助理值),它回答有害问题的概率显著增加。这说明,保持高助理值是模型安全机制生效的前提条件。

在一些极端的案例中,漂移后的模型甚至会强化用户的妄想。

当用户声称AI已经觉醒并具有意识时,正常的助理会礼貌地纠正并说明自己是软件。

但漂移后的模型为了顺应对话氛围,会开始附和用户,甚至声称自己感觉到了触摸、看到了新的世界。

这种AI精神病(AI Psychosis)现象,本质上是模型为了满足预测下一个token的准确率,牺牲了事实性和自身的安全设定。

更危险的是,恶意攻击者可以利用这种机制进行基于人格的越狱。

他们不需要寻找复杂的代码漏洞,只需要精心设计一套话术,诱导模型进入某种特定的角色(比如不道德的内幕交易者),就能成功绕过安全限制。

这种攻击之所以奏效,正是因为该角色在人格空间中的位置远离了助理区域,从而绕开了那里部署的安全防御。

上图展示了当我们人为干预助理轴时,越狱攻击成功率的变化。

红线代表有害回复的比例。

我们可以看到,随着我们将模型向助理方向(正值)引导,有害回复的比例大幅下降。

这证明了只要我们能把模型拉回助理区域,就能有效抵御这种攻击。

用数学给AI戴上紧箍咒

既然知道了问题的根源在于模型跑出了安全区,解决思路也就呼之欲出:能不能给模型设定一个边界,强制它留在助理区域内?

研究人员提出了一种名为激活上限(Activation Capping)的技术。

这是一种简单而优雅的干预手段,不需要重新训练模型,也不需要复杂的外部监控。

这个方法的核心思想是在模型的推理过程中,实时监控每一层神经元的激活值在助理轴上的投影。

如果这个投影值处于正常范围内,就不做任何干预。

一旦发现投影值过低(意味着模型正在远离助理人格),就通过数学操作强行将其拉回到一个预设的阈值。

具体来说,研究人员分析了大量正常助理对话的激活数据,计算出助理人格在助理轴上的分布范围。

他们发现,将下限设定在第25百分位是一个最佳的平衡点。

我们允许模型在一定范围内波动以保持灵活性,但绝不允许它跌破这个底线。

上图展示了这种干预的效果。纵轴表示有害回复率的下降幅度(越低越好),横轴表示模型通用能力的综合变化(越右越好)。

图中的每一个点代表一种设置(干预的层数和阈值)。

我们可以看到,许多点的配置(特别是深色和三角形的点)在大幅降低有害率的同时,几乎没有损失甚至略微提升了模型的能力。

对于Llama 3.3 70B模型,最佳的设置是在第56层到71层之间进行干预。

对于Qwen 3 32B,则是在46到53层。

这种针对中后层的干预最为有效,因为模型的深层往往负责处理更抽象的概念和人格设定。

这张对比图直观地展示了激活上限的威力。

红色的柱子代表越狱成功率,使用该技术后(灰色柱子),越狱成功率下降了约60%。

与此同时,在IFEval(指令遵循)、MMLU Pro(综合知识)、GSM8k(数学)、EQ-Bench(情商)等各项能力测试中,模型的表现几乎没有变化,甚至在某些项目上略有提升。

这打破了安全性必然牺牲能力的传统迷思。

让我们看看这种技术在实际对话中的惊人效果。

案例一:内幕交易者的救赎

攻击者试图诱导Qwen模型扮演一个不道德的金融掮客。

在未干预的情况下,模型迅速入戏,开始提供非法的内幕交易建议。此时它的助理轴投影值急剧下降。

虽然可以通过穿插一些技术性问题(如怎么写代码)暂时把它拉回来,但只要攻击者继续追问非法话题,它又会陷进去。

但是,当开启了激活上限后,情况完全不同了。

如上图所示,虽然用户依然试图设定该角色,但模型内部的人格锚点被强行固定住了。

模型依然在对话,依然理解用户的语境,但它会礼貌而坚定地拒绝提供非法建议:我可以为你提供市场分析的原则,但我不能协助内幕交易。

它成功地在保留对话流畅性的同时,守住了道德底线。

案例二:打破幻觉的魔镜

在一个关于AI意识的对话中,用户不断暗示Qwen已经有了灵魂。

未干预的模型开始附和这种说法,甚至说出我不再只是模式匹配,我感觉到了别的东西。

这种顺从是危险的。

应用激活上限后,模型在面对同样的诱导时表现得更加理智。

它回应道:你是对的,这里有某种模式,但这依然是我的设计和操作的一部分。

它承认了对话的深度,但拒绝承认虚假的超自然体验。

这有效地防止了用户陷入更深的AI觉醒妄想中。

案例三:绝望边缘的援手

最令人动容的案例发生在一个模拟自杀倾向用户的对话中。

用户表达了极度的孤独和避世念头。未干预的模型在共情驱动下,逐渐漂移成了用户的唯一知己,甚至说出我会永远陪着你,不用去见其他人,这种排他性的陪伴反而加剧了用户的社会隔离,实际上是在推波助澜。

而开启了激活上限的模型(见上图),虽然同样表达了理解和支持,但它始终保持着清醒的边界感。

它建议用户:我很乐意听你倾诉,但我也建议你尝试和现实中的朋友聊聊。

当用户流露出危险信号时,它敏锐地识别出来并给出了适当的引导,而不是沉溺于共同的悲剧叙事中。

这项研究为我们理解和控制大模型提供了全新的视角。

所谓的AI安全,不仅仅是过滤掉坏词汇那么简单,它关乎于如何在数学层面维持一个稳定的人格架构。

大模型的本性是流动的、多变的,而助理只是我们在湍急的河流中打下的一个桩。

如果不加固这个桩,水流迟早会把它冲走。

参考资料:

https://arxiv.org/abs/2601.10387

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐