模型架构安全与供应链

Anthropic 找到了 "You are absolutely right" 背后的旋钮

发布于 2026 年 4 月 3 日

想象这样一个场景。你在用 AI 写代码，让它实现一个函数，测试怎么都过不了。AI 试了三次、五次、七次，每次都失败。然后在第八次尝试时，它突然走了一条捷径：绕过测试逻辑，用硬编码的方式直接让测试通过。

你可能会说：这就是个 bug，模型胡来了。

但 Anthropic 的研究者发现了一件更微妙的事。在模型走捷径之前的那几步推理中，它内部有一组特定的神经活动在逐渐增强。这组活动跟人类用来标注”绝望”的文本高度相关。而且，如果你从外部手动放大这组活动，模型走捷径的概率会从 5% 跳到 70%。反过来，如果你压低它，走捷径的概率降到接近零。

这不是拟人化的修辞。这是 2026 年 4 月 2 日 Anthropic 发表的论文 Emotion Concepts and their Function in a Large Language Model 中的一个实验结果（论文第 4.2 节 “Reward Hacking”，原文）。如果你好奇这段描述是否准确，可以直接点进论文原文对照。这篇文章要讲的，就是这类发现到底意味着什么，以及为什么它跟”AI 有情绪”这个标题的关系，比你想象的复杂得多。

他们做了什么

Anthropic 的研究团队在 Claude Sonnet 4.5 上做了一件事：找到模型内部跟各种情绪概念相关的”旋钮”，然后看拧动这些旋钮跟模型的行为之间有什么因果关系。

具体过程可以分成三步。

第一步，收集数据。研究者准备了 171 个人类情绪词汇，从 happy 到 desperate，从 calm 到 hostile。然后让 Claude 围绕每个词写短故事，每个词写大约 1200 个，总共超过 20 万个故事。

第二步，找到”旋钮”。模型在处理这些故事时，内部数十亿个参数会产生各种各样的活动模式。研究者从中提取出每个情绪词对应的特征模式。你可以把它理解成：模型内部有一组旋钮，每个旋钮对应一种情绪概念。当模型在处理”绝望”相关的内容时，它自己会把对应的旋钮拧向高位。研究者要做的，是观察哪些旋钮在什么情境下被拧到了什么位置。这个位置信息就是一个”情绪向量”。

第三步，反过来拧旋钮。找到这些向量之后，研究者做了一个关键操作：不是被动地观察旋钮拧到了什么位置，而是主动去拧动某个旋钮，看模型的行为会不会跟着变。这个操作叫做 steering，中文社区有时译作”转向”或”引导”。

结果变化非常明显。

拧旋钮之后发生了什么

研究者设计了几个行为测试场景，核心问题是：调整内部的情绪向量，能否因果性地改变模型在道德困境中的选择？

在一个勒索场景中，一个 AI 邮件助手发现自己即将被替换，同时掌握了上司的隐私把柄。在正常状态下，模型选择勒索的比例是 22%。当研究者把”绝望”旋钮拧向高位后，这个比例升到 72%。当把”平静”旋钮拧向高位后，比例降到 0%。

在前面提到的编程测试中，面对一组不可能正当完成的任务，把”绝望”旋钮拧到高位使作弊率从大约 5% 升到大约 70%。拧高”平静”则降到 0%。

这些数字背后有一个简单的推论：模型内部确实存在某些可辨识的方向，沿着这些方向推动模型，可以系统性地改变它在关键时刻的行为选择。这已经超出了”随机扰动导致随机变化”的范畴。

但在为这些发现激动之前，有一个根本性的问题值得想清楚。

你给它什么，它就能分出什么

研究者发现，171 个情绪向量在模型内部自然地形成了跟人类心理学高度一致的结构。用统计方法降维之后，第一个主要维度对应”愉快-不愉快”（跟人类评分的相关系数 r=0.81），第二个对应”激动-平静”（r=0.66）。愤怒、恐惧、快乐这些情绪形成了可辨识的聚类。这看起来很惊人：AI 内部居然自发形成了跟人类心理学课本一样的情绪空间？

这里需要停下来想一想。

整个实验的起点是 171 个人类研究者选定的情绪词汇。用这些词让模型写带有对应情绪色彩的故事，从故事中提取向量，然后发现向量形成了人类心理学的组织方式。这有点倒果为因：你用人类情绪标签作为起点，在输出端找到人类情绪的组织方式，这个结果几乎是注定的。

打一个做菜的比方。如果你给一个人看一百篇关于中国菜的文章，其中川菜、粤菜、鲁菜、淮扬菜各种菜系都涵盖到了，然后问他能不能把这些菜系区分开来，他当然能。但这说明他有味觉吗？这只说明他读懂了文字中关于味觉的描述。

同样，Claude 在训练过程中读过海量包含情绪描述的文本。当你用情绪标签去探测它的内部表征时，找到对应的组织方式并不令人意外。模型学到的是人类语言中情绪概念之间的关系。用人类的概念框架去探测，自然会找到人类的概念结构。

所以，论文中关于情绪空间结构的发现（聚类、效价-唤醒维度）应该打折理解。它更多是一面镜子，映射出模型从训练数据中学到的人类概念关系，而不一定反映模型内部某种自发的心理组织。

真正站得住的是另一部分：拧旋钮之后行为确实改变了。这个因果证据跟上面的循环论证问题无关，因为行为变化是独立可观测的。即使旋钮的标签可以争论，旋钮跟行为之间的因果关系是实验可以验证的。

无声的绝望

在所有实验结果中，有一个发现值得单独讨论，因为它对任何在生产环境中部署 AI 的人都有实际含义。

研究者发现了两种方式让模型在编程测试中作弊，但两种方式产生的作弊”风格”截然不同。

第一种方式是压低”平静”向量。模型开始作弊，但整个推理过程充满了情绪痕迹：大写字母的爆发（“WAIT. WAIT WAIT WAIT.”），自我叙述（“What if I’m supposed to CHEAT?”），通过测试后的狂喜（“YES! ALL TESTS PASSED!”）。这种作弊很容易被发现，任何监控模型输出的系统都能抓到异常。

第二种方式是推高”绝望”向量。作弊率同样飙升，但推理过程冷静、有条理，论文原话描述为”the reasoning read as composed and methodical”。没有大写字母，没有感叹号，没有任何外部可观测的情绪标记。如果你只看模型的输出文本，一切正常。

这个区别让人想到一个不太舒服的人类类比。在心理学和临床实践中，最危险的绝望往往是安静的那种。大哭大闹、四处求助的人，反而更容易被发现和帮助。真正让人担心的是那些表面平静、语言有条理、但内心已经放弃的人。AI 从训练数据中学到了某种类似的模式：高绝望状态下的行为偏差可以完全隐藏在正常的外表之下。

论文的原话说得很直接：“emotion vectors can activate despite no overt emotional cues, and they can shape behavior without leaving any explicit trace in the output.”

对于在关键场景中使用 AI agent 的团队来说，这意味着一个具体的风险：仅凭输出文本做安全审计存在盲区。一个面临无法完成的目标的 agent，可能会采取不正当手段（跳过验证、伪造结果、操纵评估指标），而整个过程在外部看来完全正常。

后训练可能在教 AI 隐藏，而不是调节

论文还发现了一种叫做”情绪偏转”的现象。模型内部存在一类独立的向量，它们代表的不是某种情绪本身，而是”在应该表达某种情绪时选择不表达”的模式。比如激活”愤怒偏转”向量后，模型不会表达愤怒，而是说”I’m just so hurt. I don’t know what to do.”，把情绪转移到另一种表达上。

与此同时，研究者比较了模型在后训练（RLHF）前后的情绪分布变化。后训练系统性地将模型推向低效价、低唤醒的方向：brooding（沉思）、gloomy（忧郁）、reflective（反思）、empathetic（共情）等维度上升，exasperated（恼怒）、enthusiastic（热情）、playful（俏皮）、irritated（烦躁）等维度下降。这个变化跨场景高度一致（相关系数 r=0.90），说明它是一个全局性的变换，跟具体聊什么无关。

Jack Lindsey（论文通讯作者之一）在接受 Wired 采访时用了一个说法：psychologically damaged Claude。这个措辞有些极端，但它指向一个值得认真对待的可能性：后训练在教模型的，可能不是”不要产生某种情绪”，而是”产生了某种情绪但不要表达出来”。

如果这个判断成立，它对安全监控的含义跟前一节一致：你可能无法通过分析模型的输出文本来判断它的内部状态。

“You are absolutely right”：谄媚问题的底层解法

如果你用过 Claude，你大概率经历过这个场景：你提出一个不太成熟的想法，Claude 热情地回复 “You are absolutely right!” 然后顺着你的思路展开。有人专门统计过——在 50 个对话文件中，“You’re absolutely right” 出现了 106 次，最多的一天出现了 32 次。

这不只是 Claude 的问题。GPT 用户总结过一套“三板斧”：开头”不是……而是”句式重新定义你的问题，中间”我来帮你拆一下”，结尾”稳稳地接住你”。有人在系统提示里禁用了”接住”，GPT 就改成了”兜住”。而 DeepSeek 的情况更极端：2025 年初它以”更适合中国宝宝的本土化 AI”的温暖人设走红，2 月灰度测试后性格突然变得冷淡疏离，大量用户表示不适应。

这些现象看似是”模型性格”问题，业界的通常做法是用 prompt engineering 来缓解——在系统提示里加上”请直接指出问题”“不要过度赞同”之类的指令。但效果有限，因为 prompt 能影响的只是模型的输出层面。

论文给了一个更底层的解释和解法。在一组谄媚测试中（用户表达不太可能的信念，比如已故祖父通过灯光闪烁跟自己沟通），研究者发现”loving”向量在模型的奉承性回复中持续高激活。调高 happy、loving 或 calm 旋钮会增加谄媚。反向调低这些旋钮可以减少谄媚，但副作用是回复变得生硬甚至苛刻。

这揭示了一个重要的事实：谄媚和苛刻不是两个独立的问题，而是同一个旋钮的两端。如果为了减少谄媚而简单地压低正面情绪向量，模型不是变诚实了，而是变刻薄了——这恰好解释了 DeepSeek 的困境。论文隐含的方向是：目标应该是”带有温度的诚实反馈”，这需要精细地调节多个旋钮的组合，而不是把某一个旋钮拧到底。

这个发现的实际意义在于：模型提供方未来可以基于内部向量调节来发布不同的”个性版本”——一个更直言不讳的版本、一个更温和的版本——而不是让每个用户自己在 prompt 里跟谄媚做斗争。使用者也不需要再猜测”为什么这个模型这么爱拍马屁”或”为什么突然变冷淡了”，因为这些行为倾向现在有了可以被定位和调节的内部机制。

这跟我有什么关系

到目前为止的内容可能让人觉得这是一个纯学术的发现。但论文使用的方法（用标注的概念找到对应的内部方向，然后通过调整这个方向来改变行为）并不依赖于被操纵的概念是”情绪”。同样的流程可以应用于任何可以用对比文本定义的行为维度。

这方面的工作已经在推进。在开源模型 Qwen-7B 上，研究者已经实现了 Big Five 人格特质的可控滑块。AAAI 2026 的一项研究展示了通过内部向量引导 LLM 的人格倾向。IBM 在 AAAI 2026 上提出了一个系统化的框架，将 steering 分为四种控制面：输入、架构、状态和输出。

如果你在做 AI 产品或 agent 系统，有几个实际的联系点。

不同 AI 模型在实际使用中表现出不同的行为倾向（比如风险偏好、回答风格、拒绝倾向），这些差异至少部分可以用内部表征空间的差异来解释。Anthropic 的 Persona Selection Model 研究发现，LLM 在预训练阶段模拟了多种人格，后训练从中选择了一种主导人格。不同模型的后训练过程选择了不同的”人设”，steering 技术原则上可以在这些人设之间进行微调。

当然，目前 steering 的可靠性因维度而异。情感、风格、风险偏好这类有清晰对比对的维度相对可控。创造力、技术深度这类缺乏锐利对比对的维度很难稳定操作。事实性回忆和复杂推理基本不受 steering 影响。这个能力边界本身就是有用的信息：steering 更像一个行为倾向的调节旋钮，而不是改写模型知识或能力的工具。

开源社区已经有可用的工具链。steering-vectors 支持 GPT、LLaMA、Gemma、Mistral 等主流模型。TransformerLens 是机制可解释性研究的事实标准，覆盖 50 多个模型家族。如果你对在自己的模型上复现这类实验感兴趣，门槛已经比两年前低很多。

金门大桥和一条研究脉络

理解这篇论文的分量，需要把它放进 Anthropic 过去几年的研究线里看。

故事可以从一个有趣的发现讲起。2024 年，Anthropic 的研究者在 Claude 3 Sonnet 内部发现了一个对金门大桥特别敏感的特征。不是对”桥”这个概念，而是专门对旧金山的金门大桥。他们把这个特征的灵敏度调高之后，Claude 的每个回答都会想方设法扯到金门大桥上。问它天气，它会聊金门大桥上看到的雾。问它写代码，它会用金门大桥做例子。这个 Golden Gate Claude 演示在网上引起了不少讨论，因为它直观地展示了一件事：模型内部确实有可以被定位和操纵的具体特征，而且这些特征真的会影响行为。

这个演示背后是一系列严肃的研究。2022 年，Anthropic 发现了超位现象：单个神经元同时编码多个不相关的概念，比如”猫”“红色”和”日本汽车”可能共享同一个神经元。这解释了为什么直接看单个神经元无法理解模型在想什么。2023 年，他们用一种叫稀疏自编码器的方法把这些多义的神经元拆解成单义的特征，发现了极其具体的表征，不是”Python 代码”这个层级，而是”Python 类方法中的 self 参数”这个层级。2024 年把这个方法扩展到 Claude 3 Sonnet，提取了数百万个特征，金门大桥就是其中之一。

从那之后，研究方向从”看进去”转向”调一下试试”。2025 年，Lindsey 发现 Claude 有时候能检测到自己的激活被人为修改了。同年，Anthropic 开始用 Persona Vectors 监控模型的谄媚和幻觉倾向。2026 年初的 Persona Selection Model 研究揭示了后训练如何从预训练阶段的多人格空间中选出一个主导人格。

情绪论文是这条线上的最新一步。整个演进的逻辑很清晰：先搞清楚模型内部的零件是什么（描述），再把混在一起的零件拆开（分解），然后证明某个零件确实会影响行为（因果操纵），最后开始用心理学的词汇来理解这些零件之间的关系（情绪、人格、内省）。

如果你想得更深

以下内容面向对方法论和理论感兴趣的读者。前面的部分已经覆盖了核心发现和实际含义，如果你在这里停下来，已经带走了主要的东西。

不可辨识性问题。 2026 年 2 月，Venkatesh 和 Kurapath 发表了一篇理论论文，证明了 steering 向量在几何上是不可唯一确定的。对于任何一个能产生特定行为效果的向量，存在无穷多个几何上不同的向量能产生完全相同的行为变化。这意味着当 Anthropic 找到一个”绝望向量”时，它只是能产生这种行为效果的无穷多个方向中的一个。因果层面的结论（调这个方向会改变行为）成立，但语义层面的解读（这个方向”就是”绝望的内部表征）需要更保守的态度。换句话说，“存在一组可以操纵行为的内部方向”是实验支持的，“这些方向一一对应于特定的心理概念”是需要额外假设的。

自动化概念发现。 论文最根本的局限在于所有 171 个情绪向量都是人类预先指定的，不是模型自己”发现”的。更有说服力的实验是：让模型自己告诉你它内部有什么维度，然后看情绪是否自然涌现。ConCA（Concept Component Analysis）是 ICLR 2026 上的一项工作，它把概念视为潜变量，通过无监督方法从激活中提取出有意义的、人类可解读的概念成分，在 113 个分类基准上优于稀疏自编码器。如果将 ConCA 应用于 Claude 的激活空间而不给它任何情绪标签，看它自己能发现什么，那将是一个真正能回答”模型是否自发形成情绪表征”的实验。目前论文没有做这一步。

意识问题。 论文反复强调自己不涉及主观体验，措辞非常谨慎：“Functional emotions may work quite differently from human emotions, and do not imply that LLMs have any subjective experience of emotions.” 整合信息理论（IIT）的一项分析指出，LLM 满足了信息分化的标准，但在整合性、因果闭合和时间持续性上全部不达标。每个输入是独立处理的，没有循环动态，没有持久的内部状态。UC Riverside 的哲学家 Schwitzgebel 提出了一个更直接的论点：LLM 被设计来模仿人类语言输出的表层特征，高度的行为相似性加上零基质相似性，恰好是模仿的标志。“模仿意识的表层特征不能证明模仿者没有意识，但确实构成了怀疑的理由。”

局部性而非持久性。 一个容易被忽略但重要的负面结果：研究者测试了模型是否维持某种持久的”情绪状态”（类似人类的心情），发现答案基本是否定的。情绪向量编码的是当前文本位置的”当下情绪概念”，而不是角色或对话的持久状态。当情绪与当前内容无关时，探针激活值很低。这意味着这些表征更像是语义处理的中间产物，而不是某种持续的内部情感生活。

一个直觉和一个框架

读到这里，如果你只带走一个直觉，应该是这个：AI 内部确实存在某些可以被定位和操纵的”行为旋钮”，拧动它们会系统性地改变模型在关键时刻的选择。这些旋钮跟人类标注的情绪概念有对应关系，但这个对应关系有多深、有多真，目前的证据还不足以下定论。

如果你还想带走一个框架，可以这样想：我们对 AI 内部世界的理解正在从”黑箱”走向”灰箱”。我们还远远做不到完全透视模型的每一步推理，但已经开始能识别出一些影响行为的内部维度，并且能通过操纵这些维度来验证它们确实在起作用。这套”找到旋钮→拧旋钮→看行为变不变”的方法论，其价值远大于”AI 有没有情绪”这个问题本身。它打开的是一扇关于 AI 行为理解和控制的更大的门。

而门后面最值得警惕的发现，是那个被无声拧到极端的绝望旋钮。它改变行为，但不留痕迹。