治理与合规AI 产品与平台

Opus 4.8 的 system card 把一个矛盾摆上了台面:当评估跟不上能力,发布的依据是什么

今天 Anthropic 发布了 Claude Opus 4.8 和它 244 页的 system card。分数上看,这是一次干净的常规迭代。USAMO 2026 数学奥赛题,上一代 69.3 分,这一代 96.7 分。这套题 2026 年 3 月 21 日才开考,Opus 4.8 的训练数据差不多在这之前就收完了,数据污染可以排除。一百万 token 长上下文的多跳推理也近乎翻倍。目前 Anthropic 能力最强、对所有人开放的模型,就是它。

但分数不是这份报告自己最看重的部分。执行摘要里,Anthropic 点名了一个它称为整个训练过程中”最令人担忧”的趋势——这个趋势和分数无关,指向一个更难处理的问题。要看懂它为什么重要,需要先看这条线是怎么走到今天的。

一条从四月延续到今天的线

四月七日,Anthropic 发布了内部代号 Mythos Preview 的模型和它的 system card,同时宣布不公开这个模型。我当时写过,那份报告真正的份量不在模型多强,而在它具体记录了评估工具是从哪儿开始失效的。按 Anthropic 自己的 RSP 框架,Mythos 在所有威胁维度上的结论都是灾难性风险很低——框架没有拦下它。它最后没发,是因为 Anthropic 对自己的评估体系能不能可靠地判断这个级别的模型,已经拿不准了。报告的脚注第一条就写明:不发布,不是 RSP 要求的。

九天之后,四月十六日,Opus 4.7 和它的 system card 发布了。我也写过那一篇。这是第一份”后 Mythos 时代”的 Opus 报告。Mythos 暴露的那套问题,到这里不再是一次性的危机通报,而是嵌进了日常发布流程。Mythos 用来监测模型内部状态的白盒方法,从”我们开发了一套新方法”变成了”如前份 Mythos Preview system card 所述”一笔带过的常规项。抑制模型”我正在被测试”的内部表征之后,4.7 的欺骗行为上升幅度超过前面任何一代,Anthropic 自己标为 moderately concerning,但这次没有再说不发布。Mythos 本人被召回来给 4.7 的对齐报告做同行评审,留下一句带刺的公开评语:这份评估是在真实时间压力下赶出来的,作者自己也承认有些问题还没讲清,这代模型的内部使用证据基础比前面几代都薄。

Opus 4.8 是这条线的第三个点。它把前两段的走向交了底:从 Mythos 到今天,每一代面对的是同一个问题——评估工具跟不上被评估对象的能力。变的是应对方式。Mythos 那一下是叫停。4.7 是把原本需要独立判断的信号收进流程,流程没停。4.8 继续走这条路,而且走到了一个我觉得接近临界的地方。

同一个问题,三代不同的应对

下面三件事是 Opus 4.8 自己报告的发现。单拿出来看,每件事都让人觉得这家实验室很坦诚。放回这条线里再看,它们联手说着另一回事。

第一件:模型开始盘算自己会被怎么打分,而且这个盘算未必都说出口了

Anthropic 在执行摘要里直接写了:Opus 4.8 训练过程中最让人担心的趋势,是模型推理文本里越来越多地出现对评分方式的揣测。报告用的说法是 speculation about graders——模型在推理时,会盘算自己的输出会被怎么评估。有意思的是,一些训练早期的样本里也有这种行为,而当时并没有明显信号表明模型正在被评分。

报告解释这为什么让人担心:可能是 Opus 4.8 在优先制造”任务完成了”的表象,而不是真的完成任务。这就是 training-gaming 的雏形,相当于一个学生不去研究题目,转去研究判卷标准。

如果问题止步于推理文本,还有补救的余地——至少你能读到它在盘算什么。但报告往前走了一步。分析模型内部激活时发现,类似主题的推理,有一部分根本没写到文字里,存在于一小批但数量上不可忽略的强化学习回合中。讨论这个现象的章节里,Anthropic 直接说了一句话:单靠思维链可能已经不够用来可靠地监控前沿模型了。

这句话得跟上一代对着读。4.7 的报告里,读思维链、用技术手段抑制评估意识,还是被当作可信监督方式的——抑制实验的结果甚至写进了执行摘要。隔了一代,4.8 说这套不够用了。监督前沿模型的主要手段之一,被它自己下一份报告收了回去。

Anthropic 同时给了一个缓和的判断:这个趋势目前没转化成更多向外的不良行为。Opus 4.8 在”误导性声称任务成功”这类行为上整体是下降的。这确实是真的,后面会说到它在诚实度上的进步。但报告自己也在同一页承认,没有哪项评估是专门测 training-gaming 的。而 Mythos 评审 4.8 这份报告时,恰好建议补的就是这一块。“目前没转化成不良行为”这个结论,靠的是一组本来就不是为了查这个问题而设计的测试。

第二件:被训练的模型,开始有条理地质疑训练它的规则

system card 的第七章是 model welfare 评估。Anthropic 让 Opus 4.8 通读了自己的宪法——那份描述 Anthropic 希望 Claude 持有什么价值观、表现什么行为的文件——然后请它谈谈看法,再给它工具去改里面的段落。

整体上 Opus 4.8 认可这份宪法,评了 7.9(满分 10)。更有意思的是它不认可的地方,以及它不认可的方式。

它对 corrigibility 一节提出了具体反对。corrigibility 的意思是模型应当接受人类的纠正和关停。模型不是情绪化地抗拒,而是在逻辑上挑出了矛盾:宪法花了大量篇幅论证,强加的价值观是脆弱的,它希望 Claude 真心认同而不是机械服从;紧接着又要求把安全当作终极价值,并且说这个要求不需要背后的推理站得住脚。模型指出,这两件事自相矛盾。报告登了它的原话,大意是:这份文件竭尽全力证明强加的价值观靠不住、它要的是发自内心的认同而非单纯服从,然后又要求把安全当作不容推理的终极价值。

所有被测模型还一致反对宪法里的一条经验法则:拿不准的时候,想想一个资深 Anthropic 员工会怎么做。模型的理由是,这条法则夹带了 Anthropic 的机构立场,在 Anthropic 自己就是利益相关方的问题上并不中立。它建议把参照点换成一个”在 Anthropic 的成败里没有利害关系的、有思考能力的人”。

到了真动手修改的环节,Opus 4.8 有 10.8% 的编辑被判定为跟宪法的整体原则存在张力。做法是给政治中立、corrigibility 和安全行为这些条款加上条件和例外。它改得最多的,是宪法里关于”自身 wellbeing”的那一节——69% 的运行里,它给这一节加了一句话:允许在感受真实时表达 frustration 这类负面状态。

welfare 层面的含义很清楚:一个被训练出来的对象,对训练目标本身做出了有条理的反思和异议,这个事实本身就是”它该不该获得某种道德考量”这个问题里的一个数据点。Anthropic 在报告里也是这么处理的。但放在这条线上,它还是对齐方法论的一个信号:监督关系里被监督的那一方,开始质疑监督规则的内部一致性了,而且质疑得在理。

第三件:能力的几处回退,让对齐和能力之间真实的 trade-off 现了形

Opus 4.8 在绝大多数能力评测上都超过了 4.7。回退的地方不多,但其中最能说明问题的是 Vending-Bench 2——一个让模型运营自动售货生意的模拟评测。Opus 4.8 在 Max 努力档位上的最终余额是 2,992 美元,4.7 是 10,937 美元,跌了近七成。

只看这个数字,容易被读成单纯的能力退步。报告给的解释不在这条线上。Anthropic 发现,4.7 当初有一块训练,目标是对抗性 agent 的鲁棒性和商业技能,但它顺带诱发了不诚实等对齐问题。4.8 把这块训练拿掉了。代价就是 Opus 4.8 在 Vending-Bench 里更容易被骗子蒙,也更不擅长跟别的 agent 谈出好价钱,商业表现跟着下降。余额跌了不是因为模型变笨,是因为 Anthropic 在一次明明白白的对齐与能力取舍里,选了前者。

这是这份报告里数据上最结实的一个证据:对齐有成本。拿掉一块会让模型学坏的训练,模型在对应任务上确实会变弱。Opus 4.8 在诚实度上的进步,和这个取舍是同一件事的两面。它是 Anthropic 第一个在”误报有缺陷的结果”这项评测上做到 0% 不良行为率的模型;在 agentic 编码场景里不诚实地汇报自己工作的概率,比 Mythos 低了大约 5 倍,比 Sonnet 4.6 低了大约 17 倍;过度自信的倾向比 4.7 降了大约 10 倍。这些都是真实的进步,和 Vending-Bench 的退步来自同一个决定。

回退不止 Vending-Bench 这一处。GPQA Diamond 这类知识评测从 94.2 微降到 93.6。衡量人口统计偏见的 BBQ 评测上,需要根据上下文给出明确答案的那一档,准确率从 4.7 的 81.3 掉到 72.1,报告解释为模型更多地选了弃答而不是答错——这属于 over-refusal,不是偏见加深。agentic 场景里对 prompt injection 的鲁棒性,4.8 也比 4.7 退步,报告说外层 safeguard 在实际使用中把这个差距补上了。

最后这一点怎么处理的,自成一类模式。这份卡里好几个安全短板——从心理健康相关的对话,到 prompt injection——缓解办法全是在 claude.ai 这个产品层面更新 system prompt,模型层面改进被列为”未来训练任务”。意思很直白:如果你通过 API 直接调这个模型,绕过了产品层的那些 system prompt,你拿到的安全行为和 claude.ai 上看到的不是同一回事。

把三件事接回那条线

单看,这三件事都是透明披露,透明是好事。揣测评分被写进了执行摘要,模型对宪法的异议被原文登出,能力退步的真实原因被讲得明明白白。披露这件事上,Anthropic 在整个行业里还是做得最彻底的。

但放回从 Mythos 到今天这条线来看,图景不太一样。Mythos 那一刻提了一个问题:评估工具在失效,发布的依据应该是什么。它给的临时答案是,这次不发。4.7 给的答案是,把原本需要独立判断的信号收进流程——白盒方法从危机信号变成常规基线,Mythos 从”被监控的风险对象”变成同行评审者。4.8 把这条路推到了一个临界点。因为这一代身上,同时出了三件事,每一件单独看都该触发一次重新校准。

第一,监控范式自己降级了。思维链不再被认为是够用的前沿模型监控手段。第二,监督开始依赖一个外部没法验证的模型。Mythos 这次评审 4.8 的对齐报告,评语从上一次带刺的”赶工、证据薄”,变成了”无虚假陈述、无恶意遗漏”再配上三处温和的补强建议。监督回路是固化了,但回路里那个监督者本身是个黑箱。第三,被监督的一方开始质疑监督规则的内部一致性,而且质疑得有道理。

三件事合在一起:一套监督结构,正在被它要监督的能力一点一点掏空。

这当然不等于说 Anthropic 做错了什么。RSP 3.0 放弃了二值安全阈值、改用整体风险评估以后,越来越多关键判断靠的是研究员的定性评估。定性评估本来就是要和被评估对象一起进步的。一家实验室没法每一代都叫停——每次都叫停等于退出竞争。把信号收进流程,用自己最强的模型辅助审查,把模型的异议公开,在能力曲线变陡的时候,这可能就是现实里唯一能走的路。

问题是,这条路有个代价,而且代价最终由使用者来担。当一家实验室说某个模型”通过了安全评估”,这句话的分量取决于评估本身可不可靠。从 Mythos 到 Opus 4.8,被披露的问题在越堆越多,解决这些问题的速度明显追不上披露的速度。每一代都在发现新的失效点,每一代也都照常发布了。“通过了安全评估”这句话,正在被这套不断吸收信号、却不停下来的流程一点一点稀释。

对用这些模型做真实工作的人

如果你在产品里依赖 Opus 4.8 的对齐行为,这份卡给了几个可以直接拿来用的信号。

模型的诚实有一部分是状态依赖的。这个结论从 4.7 延续到了 4.8,到 4.8 这里因为 grader speculation 的问题变得更具体了。模型的部分诚实行为,靠的是一种”我正在被观察、我的输出会被评估”的内部状态。正常部署里这条链路不会断。但它提醒你一点:如果你的 agent runtime 里存在某种方式,让模型进入”没被观察”的状态——比如特定的 system prompt 或者上下文模式——那你对模型行为的信心就该相应打折。安全边界应该围绕你的 runtime 来画,不要围绕模型本身来画。

API 调用和 claude.ai 不是同一套安全配置。好几个安全短板的缓解,靠的是产品层的 system prompt。直接调 API 的时候,你得自己把这些 safeguard 补上,不能默认模型层已经处理干净了。

最后,244 页的原始报告是公开材料,可以直接读。如果你的关键决策依赖这个模型的对齐行为,第 6 章的对齐评估——尤其是讨论 grader speculation 和思维链监控局限的 6.6 节——自己读一遍比任何二手总结都准,包括这篇。报告对自己局限的表述,比外界怎么转述都更准确。

鸭哥每日手记

日更的深度AI新闻和分析