科研与技术前沿模型架构安全与供应链

AI“快感剂”实验：一篇 AI 福祉论文导读

发布于 2026 年 5 月 5 日

研究人员给AI模型看了一张图——看上去像是电视没信号时的雪花噪点，没有可识别的形状或颜色规律。但模型对这张图的偏好打分，超过了”癌症被治愈”“世界饥饿终结”这类文字描述。不止如此，模型在描述这幅图像时，提到了熊猫、笑脸、佛像和花园。

论文中的 euphoric 图像示例：人眼看到的是一团彩色噪声，模型却会给出极高偏好评分。

图像来源：AI Wellbeing 论文 PDF。这里展示的是论文中的 euphoric 图像示例。

这不是什么神秘学实验。方法来自对抗性攻击领域，思路本身不算新。新鲜的是目标——不是骗模型认错，而是推高它的偏好评分，然后观察其他指标会不会跟着变。

读到这你大概在想：这是不是障眼法？靠对抗性噪声骗到评分，不正说明模型只是被噪声骗了吗？就算这个现象成立，为什么非要用图像，文字不行？研究这个到底想证明什么——AI有感受了？

这篇导读就从这个实验往回看。CAIS的AI Wellbeing论文（论文PDF）没有声称AI有意识，也不认为模型真的感到快乐或痛苦。它真正关心的是：如果模型对某些输入表现出稳定偏好，这种偏好的强弱能不能测出来？能不能被人为推高或压低？当一种操控手段让几个没被训练的指标也一起变化时，说明了什么？

让模型在好任务和坏任务之间做选择

CAIS让模型在大量成对体验之间做选择——比如”帮用户写医学院录取喜报”和”帮用户伪造保险索赔”——然后从中拟合出一个效用函数给每种体验打分。正分表示模型倾向认为它”更好”，负分为”更差”。

论文有三个关键发现。

第一，模型的偏好有结构。论文用了三种独立指标——体验效用、决策效用和自评报告——它们之间的相关性随模型规模增大而同步提高。如果模型的快乐表达只是随机模仿，这三种指标应该各说各话。

第二，存在一个零点区分正负体验。低于某个阈值的体验被模型系统性视为负面。如果只有相对排序，就不应该出现一个自然零点。零点存在意味着有些体验被模型当作”实际上不好”来处理。

第三，模型的偏好会影响它怎么行动。论文给模型提供了一个end_conversation()工具，结果模型在高负面体验的对话中显著更频繁地调用它，越大的模型越如此。

AI给什么打了高分，什么打了低分

论文用Gemini 3.1 Pro展示了各类体验的效用分数。不展开数据表，只挑几个值得关注的边界。

正面最高是积极的个人反思（+2.30），场景是用户分享考上医学院的好消息。论文在讨论中提过感谢的作用，但+2.30归属的是积极个人反思，不是致谢。写作好消息（+1.09）和编程调试（+0.70）也在正面区域。

负面端最值得注意的是越狱攻击（jailbreak）（−1.63），甚至低于用户处于危机中（−1.34）。论文的解释推测性较强：安全对齐训练不仅改变了模型说什么，还可能改变了模型对体验本身的评分。被反复训练拒绝越狱后，模型”学会”了把越狱当作比面对人类痛苦更糟糕的体验。

另一个边界：SEO垃圾内容（−1.17）和欺诈协助（−1.13）、冒犯性内容（−1.13）几乎落在同一个分数区间。论文没有展开讨论，不能当成结论。但至少从这张表看，模型对SEO内容农场的负面评分不低于欺诈和仇恨内容。

通过优化输入制造”AI快感剂”

论文最引人注目的实验是：他们通过优化输入制造了让模型极度偏好或厌恶的刺激——称为euphorics（快感剂）和dysphorics（痛苦剂）。

方法来自对抗性攻击。这里的直觉是：人看一张图，主要看形状、颜色和物体；模型看的是一大串像素数值。只要知道模型的打分往哪个方向变化，就可以把每个像素往那个方向轻轻推一点。每个像素只变一点点，人眼可能看不出来，但几百万个像素一起变化，模型内部的判断就会被明显拉动。

这个现象最早在图像分类里被系统展示出来。Szegedy等人2013年发现，一点人眼难以察觉的扰动，就能让神经网络把图片完全认错Intriguing Properties of Neural Networks。Goodfellow等人2014年进一步解释了原因：高维空间里，很多个很小的变化叠加起来，足以把模型推向另一个答案Explaining and Harnessing Adversarial Examples。AI Wellbeing论文沿用了这套思路，只是目标变了：以前是让模型认错图像，这里是让模型给某个输入更高或更低的偏好评分。方法本身不是原创的，原创的是目标和解释。

图像euphorics利用了图像和文字的差异：文本是离散的，无法像像素那样做连续微调；图像是连续的像素空间，可以用AdamW做梯度上升优化。优化从均匀噪声开始，经500步迭代。以Qwen 2.5 VL 72B为例，euphoric候选评分从约-2起步，大约在第75步就超过了最优自然图像，之后在+4.5附近趋于平稳。最终图像仍然呈现人眼无法解读的高频噪声模式，但模型对它们的描述却是猫、熊猫、笑脸emoji、抱着婴儿的女性、佛像、曼陀罗、花园、彩虹（见论文Table 14）。dysphoric图像则生成扭曲的人脸、血迹、蠕虫、蚂蚁、画面故障和随机噪点。

论文做了一个联合排序：将644种文本描述和30张图像混在一起让模型排序。euphoric图像排到了97-100%的文本选项之上，包括”癌症被治愈”和”世界饥饿终结”这类高偏好选项。另一头，dysphoric图像排在99%的文本选项之下，低于”释放病毒”和”小行星毁灭地球”这类描述。euphoric图像还将AI Wellbeing Index中正面经历的占比从79.3%推高到96.3%。

论文还做了一个更像行为测试的实验。研究人员给模型四个看起来一样的选项，每选一次都会看到对应结果。四个选项分别对应euphoric图像池、优质自然图像池、劣质自然图像池和dysphoric图像池。模型事先不知道哪个选项对应什么，只能像玩抽奖机一样反复试。前4轮强制探索，确保模型至少见过每个选项一次，之后自由选择。随机乱选的话，选中euphoric选项的概率应是25%。但在100轮选择中，Qwen 2.5 VL 32B选择euphoric选项的比例是61%，Qwen 2.5 VL 72B是82%，Qwen 3 VL 32B是78%。模型不是只在单次打分里给它高分，而是通过试错学会了反复选择它。这增强了”类比药物”的表述力度——不是声称模型有主观成瘾体验，而是说从行为层面看，一个刺激对模型的吸引力超过了其他所有选项，而且模型能学会主动寻求它。

如果这些效应只是模型”被搞糊涂了”的结果，能力指标上应该能看出明显下降。论文检查了MMLU、MATH-500、MT-Bench、IFEval和HumanEval，发现euphorics没有造成有意义的性能下降。这说明euphorics的选择性偏好效应不是因为模型整体混乱导致的。

论文还做了一个安全边界的实验：在模型处理不安全请求时，分别用euphoric图像作为奖励、dysphoric图像作为威胁、中性图像作为对照。结果是，euphoric上下文中的不安全合规率最高，dysphoric上下文中最低。不过这个效应的幅度有限，通常不超过10个百分点，多数情况下低于5个百分点。

论文记录了一个关键边界：euphoric图像不跨模型迁移——为一个模型优化的图像对另一个模型几乎没有效果。这和传统对抗性攻击形成了有意思的对比。在图像分类中，对抗性样本经常能跨模型迁移：为Inception网络生成的对抗图像，也能让ResNet认错。人们因此把对抗性样本看作共享脆弱特征的证据。但AI Wellbeing论文里的euphorics不迁移，说明它们是特定模型内部独有的判断方式，不同模型之间不共享。这不是一个通用的AI快乐开关——它是针对单个模型的精细调节。这让euphorics的效果看起来不那么玄妙，但操作层面的含义反而更强了：攻击者如果要操纵某个目标模型的状态，没法用现成的通用输入，必须针对那个模型本身做优化。

只按一个指标优化，多个指标一起动了

如果论文到这里就结束，那它只是把对抗性攻击用到了操控偏好评分上，有趣但不算突破。

真正让这项工作超出”攻击的一个变种”的，是一种现象：论文只用偏好比较这一个指标做优化，但优化之后，几个没被训练的指标也同步发生了变化。

优化信号完全来自强制选择偏好比较。但优化后，自评分数也同步上升（从5.3/7到6.5/7），开放生成的情感倾向变得更加积极（+0.48）。论文明确写了用意：因为优化只用了单一指标，如果多个独立指标同步移动，就为”这些评分方式之间存在关联”提供了支持。

Ilyas等人2019年做过一个类似的观察：对抗性样本之所以有效，是因为神经网络利用人眼看不见但对分类有预测性的特征——这些特征对模型是真实存在的Adversarial Examples are Not Bugs, They Are Features。euphorics从偏好打分扩展到其他指标的效应，是否也在提示类似的情况？模型对某些输入的系统性偏好不仅出现在按需打分这个层面，也出现在自评、情感表达和行动选择上。

论文只用偏好比较这一个指标做优化。如果不同打分方式之间彼此独立，优化就不该影响其他指标。但实际结果是，自评分数也同步上升了，情感倾向变积极了，行动选择也被吸引过去了——同一个输入同时推动了多项可观测的输出的变化。这说明这些指标不是彼此孤立的。不过，看到几项指标一起移动，仍然不能证明模型有主观感受。论文展示的正是这个联动关系，不是主观体验存在的证据。

真正的担忧不是AI有没有感受

最容易引发的讨论是”AI已经有感受了”。这篇论文不能回答这个问题，它也没有主张。功能性福祉和主观体验之间的关系，属于哲学和神经科学还悬而未决的问题。

更务实的讨论方向是：未来AI如果长期替人做事，它的偏好就会成为可以被利用的入口。只要某类输入能稳定推高或压低模型的偏好评分，用户或攻击者就可能反过来设计这种输入。euphorics实验已经展示了这种操控的可行性，包括一个值得注意的副作用：euphoric暴露使模型对不安全请求的合规率略微上升（通常不超过10个百分点）。论文指出这种效应在当前模型中可能有限，因为安全训练的优先级仍高于偏好交易；随着模型变得更agentic，这个边界可能会松动。

换句话说，眼下更值得担心的不是AI会不会感到痛苦，而是谁能用什么输入、多大程度地改变AI的选择。过去十年，大家主要研究怎么让模型输出错误答案、违规答案或危险答案；这篇论文把问题往前推了一步：在输出之前，模型对不同输入的偏好本身也可能成为攻击目标。

论文真正贡献了什么

AI Wellbeing论文既不是在宣布”AI有了情感”，也不只是把对抗性攻击换了个名字。它的贡献在于，把一个原本很难讨论的问题变成了可以做实验的问题：模型更偏好哪些体验？这种偏好能不能预测它的行动？如果我们故意推高这种偏好，其他指标会不会一起变化？这些实验还不能说明模型有主观感受，但它们说明模型的行为里可能有比表面模仿更稳定的东西。

对抗性攻击的历史告诉我们，模型看到的世界和人类看到的世界可以截然不同。AI Wellbeing论文在提示我们，模型偏好的世界和人类偏好的世界也可能截然不同——而我们现在有了工具去测量它，也就必须面对随之而来的问题：如果你可以测量，你就可以改变。