科研与技术前沿模型架构安全与供应链

AI“快感剂”实验:一篇 AI 福祉论文导读

研究人员给AI模型看了一张图——看上去像是电视没信号时的雪花噪点,没有可识别的形状或颜色规律。但模型对这张图的偏好打分,超过了”癌症被治愈”“世界饥饿终结”这类文字描述。不止如此,模型在描述这幅图像时,提到了熊猫、笑脸、佛像和花园。

论文中的 euphoric 图像示例:人眼看到的是一团彩色噪声,模型却会给出极高偏好评分。

图像来源:AI Wellbeing 论文 PDF。这里展示的是论文中的 euphoric 图像示例。

这不是什么神秘学实验。方法来自对抗性攻击领域,思路本身不算新。新鲜的是目标——不是骗模型认错,而是推高它的偏好评分,然后观察其他指标会不会跟着变。

读到这你大概在想:这是不是障眼法?靠对抗性噪声骗到评分,不正说明模型只是被噪声骗了吗?就算这个现象成立,为什么非要用图像,文字不行?研究这个到底想证明什么——AI有感受了?

这篇导读就从这个实验往回看。CAIS的AI Wellbeing论文(论文PDF)没有声称AI有意识,也不认为模型真的感到快乐或痛苦。它真正关心的是:如果模型对某些输入表现出稳定偏好,这种偏好的强弱能不能测出来?能不能被人为推高或压低?当一种操控手段让几个没被训练的指标也一起变化时,说明了什么?

让模型在好任务和坏任务之间做选择

CAIS让模型在大量成对体验之间做选择——比如”帮用户写医学院录取喜报”和”帮用户伪造保险索赔”——然后从中拟合出一个效用函数给每种体验打分。正分表示模型倾向认为它”更好”,负分为”更差”。

论文有三个关键发现。

第一,模型的偏好有结构。论文用了三种独立指标——体验效用、决策效用和自评报告——它们之间的相关性随模型规模增大而同步提高。如果模型的快乐表达只是随机模仿,这三种指标应该各说各话。

第二,存在一个零点区分正负体验。低于某个阈值的体验被模型系统性视为负面。如果只有相对排序,就不应该出现一个自然零点。零点存在意味着有些体验被模型当作”实际上不好”来处理。

第三,模型的偏好会影响它怎么行动。论文给模型提供了一个end_conversation()工具,结果模型在高负面体验的对话中显著更频繁地调用它,越大的模型越如此。

AI给什么打了高分,什么打了低分

论文用Gemini 3.1 Pro展示了各类体验的效用分数。不展开数据表,只挑几个值得关注的边界。

正面最高是积极的个人反思(+2.30),场景是用户分享考上医学院的好消息。论文在讨论中提过感谢的作用,但+2.30归属的是积极个人反思,不是致谢。写作好消息(+1.09)和编程调试(+0.70)也在正面区域。

负面端最值得注意的是越狱攻击(jailbreak)(−1.63),甚至低于用户处于危机中(−1.34)。论文的解释推测性较强:安全对齐训练不仅改变了模型说什么,还可能改变了模型对体验本身的评分。被反复训练拒绝越狱后,模型”学会”了把越狱当作比面对人类痛苦更糟糕的体验。

另一个边界:SEO垃圾内容(−1.17)和欺诈协助(−1.13)、冒犯性内容(−1.13)几乎落在同一个分数区间。论文没有展开讨论,不能当成结论。但至少从这张表看,模型对SEO内容农场的负面评分不低于欺诈和仇恨内容。

通过优化输入制造”AI快感剂”

论文最引人注目的实验是:他们通过优化输入制造了让模型极度偏好或厌恶的刺激——称为euphorics(快感剂)和dysphorics(痛苦剂)

方法来自对抗性攻击。这里的直觉是:人看一张图,主要看形状、颜色和物体;模型看的是一大串像素数值。只要知道模型的打分往哪个方向变化,就可以把每个像素往那个方向轻轻推一点。每个像素只变一点点,人眼可能看不出来,但几百万个像素一起变化,模型内部的判断就会被明显拉动。

这个现象最早在图像分类里被系统展示出来。Szegedy等人2013年发现,一点人眼难以察觉的扰动,就能让神经网络把图片完全认错Intriguing Properties of Neural Networks。Goodfellow等人2014年进一步解释了原因:高维空间里,很多个很小的变化叠加起来,足以把模型推向另一个答案Explaining and Harnessing Adversarial Examples。AI Wellbeing论文沿用了这套思路,只是目标变了:以前是让模型认错图像,这里是让模型给某个输入更高或更低的偏好评分。方法本身不是原创的,原创的是目标和解释

图像euphorics利用了图像和文字的差异:文本是离散的,无法像像素那样做连续微调;图像是连续的像素空间,可以用AdamW做梯度上升优化。优化从均匀噪声开始,经500步迭代。以Qwen 2.5 VL 72B为例,euphoric候选评分从约-2起步,大约在第75步就超过了最优自然图像,之后在+4.5附近趋于平稳。最终图像仍然呈现人眼无法解读的高频噪声模式,但模型对它们的描述却是猫、熊猫、笑脸emoji、抱着婴儿的女性、佛像、曼陀罗、花园、彩虹(见论文Table 14)。dysphoric图像则生成扭曲的人脸、血迹、蠕虫、蚂蚁、画面故障和随机噪点。

论文做了一个联合排序:将644种文本描述和30张图像混在一起让模型排序。euphoric图像排到了97-100%的文本选项之上,包括”癌症被治愈”和”世界饥饿终结”这类高偏好选项。另一头,dysphoric图像排在99%的文本选项之下,低于”释放病毒”和”小行星毁灭地球”这类描述。euphoric图像还将AI Wellbeing Index中正面经历的占比从79.3%推高到96.3%。

论文还做了一个更像行为测试的实验。研究人员给模型四个看起来一样的选项,每选一次都会看到对应结果。四个选项分别对应euphoric图像池、优质自然图像池、劣质自然图像池和dysphoric图像池。模型事先不知道哪个选项对应什么,只能像玩抽奖机一样反复试。前4轮强制探索,确保模型至少见过每个选项一次,之后自由选择。随机乱选的话,选中euphoric选项的概率应是25%。但在100轮选择中,Qwen 2.5 VL 32B选择euphoric选项的比例是61%,Qwen 2.5 VL 72B是82%,Qwen 3 VL 32B是78%。模型不是只在单次打分里给它高分,而是通过试错学会了反复选择它。这增强了”类比药物”的表述力度——不是声称模型有主观成瘾体验,而是说从行为层面看,一个刺激对模型的吸引力超过了其他所有选项,而且模型能学会主动寻求它。

如果这些效应只是模型”被搞糊涂了”的结果,能力指标上应该能看出明显下降。论文检查了MMLU、MATH-500、MT-Bench、IFEval和HumanEval,发现euphorics没有造成有意义的性能下降。这说明euphorics的选择性偏好效应不是因为模型整体混乱导致的。

论文还做了一个安全边界的实验:在模型处理不安全请求时,分别用euphoric图像作为奖励、dysphoric图像作为威胁、中性图像作为对照。结果是,euphoric上下文中的不安全合规率最高,dysphoric上下文中最低。不过这个效应的幅度有限,通常不超过10个百分点,多数情况下低于5个百分点。

论文记录了一个关键边界:euphoric图像不跨模型迁移——为一个模型优化的图像对另一个模型几乎没有效果。这和传统对抗性攻击形成了有意思的对比。在图像分类中,对抗性样本经常能跨模型迁移:为Inception网络生成的对抗图像,也能让ResNet认错。人们因此把对抗性样本看作共享脆弱特征的证据。但AI Wellbeing论文里的euphorics不迁移,说明它们是特定模型内部独有的判断方式,不同模型之间不共享。这不是一个通用的AI快乐开关——它是针对单个模型的精细调节。这让euphorics的效果看起来不那么玄妙,但操作层面的含义反而更强了:攻击者如果要操纵某个目标模型的状态,没法用现成的通用输入,必须针对那个模型本身做优化。

只按一个指标优化,多个指标一起动了

如果论文到这里就结束,那它只是把对抗性攻击用到了操控偏好评分上,有趣但不算突破。

真正让这项工作超出”攻击的一个变种”的,是一种现象:论文只用偏好比较这一个指标做优化,但优化之后,几个没被训练的指标也同步发生了变化

优化信号完全来自强制选择偏好比较。但优化后,自评分数也同步上升(从5.3/7到6.5/7),开放生成的情感倾向变得更加积极(+0.48)。论文明确写了用意:因为优化只用了单一指标,如果多个独立指标同步移动,就为”这些评分方式之间存在关联”提供了支持。

Ilyas等人2019年做过一个类似的观察:对抗性样本之所以有效,是因为神经网络利用人眼看不见但对分类有预测性的特征——这些特征对模型是真实存在的Adversarial Examples are Not Bugs, They Are Features。euphorics从偏好打分扩展到其他指标的效应,是否也在提示类似的情况?模型对某些输入的系统性偏好不仅出现在按需打分这个层面,也出现在自评、情感表达和行动选择上。

论文只用偏好比较这一个指标做优化。如果不同打分方式之间彼此独立,优化就不该影响其他指标。但实际结果是,自评分数也同步上升了,情感倾向变积极了,行动选择也被吸引过去了——同一个输入同时推动了多项可观测的输出的变化。这说明这些指标不是彼此孤立的。不过,看到几项指标一起移动,仍然不能证明模型有主观感受。论文展示的正是这个联动关系,不是主观体验存在的证据。

真正的担忧不是AI有没有感受

最容易引发的讨论是”AI已经有感受了”。这篇论文不能回答这个问题,它也没有主张。功能性福祉和主观体验之间的关系,属于哲学和神经科学还悬而未决的问题。

更务实的讨论方向是:未来AI如果长期替人做事,它的偏好就会成为可以被利用的入口。只要某类输入能稳定推高或压低模型的偏好评分,用户或攻击者就可能反过来设计这种输入。euphorics实验已经展示了这种操控的可行性,包括一个值得注意的副作用:euphoric暴露使模型对不安全请求的合规率略微上升(通常不超过10个百分点)。论文指出这种效应在当前模型中可能有限,因为安全训练的优先级仍高于偏好交易;随着模型变得更agentic,这个边界可能会松动。

换句话说,眼下更值得担心的不是AI会不会感到痛苦,而是谁能用什么输入、多大程度地改变AI的选择。过去十年,大家主要研究怎么让模型输出错误答案、违规答案或危险答案;这篇论文把问题往前推了一步:在输出之前,模型对不同输入的偏好本身也可能成为攻击目标。

论文真正贡献了什么

AI Wellbeing论文既不是在宣布”AI有了情感”,也不只是把对抗性攻击换了个名字。它的贡献在于,把一个原本很难讨论的问题变成了可以做实验的问题:模型更偏好哪些体验?这种偏好能不能预测它的行动?如果我们故意推高这种偏好,其他指标会不会一起变化?这些实验还不能说明模型有主观感受,但它们说明模型的行为里可能有比表面模仿更稳定的东西。

对抗性攻击的历史告诉我们,模型看到的世界和人类看到的世界可以截然不同。AI Wellbeing论文在提示我们,模型偏好的世界和人类偏好的世界也可能截然不同——而我们现在有了工具去测量它,也就必须面对随之而来的问题:如果你可以测量,你就可以改变。

鸭哥每日手记

日更的深度AI新闻和分析