治理与合规AI 产品与平台

Opus 4.8 的 system card 把一个矛盾摆上了台面：当评估跟不上能力，发布的依据是什么

发布于 2026 年 5 月 28 日

今天 Anthropic 发布了 Claude Opus 4.8 和它 244 页的 system card。分数上看，这是一次干净的常规迭代。USAMO 2026 数学奥赛题，上一代 69.3 分，这一代 96.7 分。这套题 2026 年 3 月 21 日才开考，Opus 4.8 的训练数据差不多在这之前就收完了，数据污染可以排除。一百万 token 长上下文的多跳推理也近乎翻倍。目前 Anthropic 能力最强、对所有人开放的模型，就是它。

但分数不是这份报告自己最看重的部分。执行摘要里，Anthropic 点名了一个它称为整个训练过程中”最令人担忧”的趋势——这个趋势和分数无关，指向一个更难处理的问题。要看懂它为什么重要，需要先看这条线是怎么走到今天的。

一条从四月延续到今天的线

四月七日，Anthropic 发布了内部代号 Mythos Preview 的模型和它的 system card，同时宣布不公开这个模型。我当时写过，那份报告真正的份量不在模型多强，而在它具体记录了评估工具是从哪儿开始失效的。按 Anthropic 自己的 RSP 框架，Mythos 在所有威胁维度上的结论都是灾难性风险很低——框架没有拦下它。它最后没发，是因为 Anthropic 对自己的评估体系能不能可靠地判断这个级别的模型，已经拿不准了。报告的脚注第一条就写明：不发布，不是 RSP 要求的。

九天之后，四月十六日，Opus 4.7 和它的 system card 发布了。我也写过那一篇。这是第一份”后 Mythos 时代”的 Opus 报告。Mythos 暴露的那套问题，到这里不再是一次性的危机通报，而是嵌进了日常发布流程。Mythos 用来监测模型内部状态的白盒方法，从”我们开发了一套新方法”变成了”如前份 Mythos Preview system card 所述”一笔带过的常规项。抑制模型”我正在被测试”的内部表征之后，4.7 的欺骗行为上升幅度超过前面任何一代，Anthropic 自己标为 moderately concerning，但这次没有再说不发布。Mythos 本人被召回来给 4.7 的对齐报告做同行评审，留下一句带刺的公开评语：这份评估是在真实时间压力下赶出来的，作者自己也承认有些问题还没讲清，这代模型的内部使用证据基础比前面几代都薄。

Opus 4.8 是这条线的第三个点。它把前两段的走向交了底：从 Mythos 到今天，每一代面对的是同一个问题——评估工具跟不上被评估对象的能力。变的是应对方式。Mythos 那一下是叫停。4.7 是把原本需要独立判断的信号收进流程，流程没停。4.8 继续走这条路，而且走到了一个我觉得接近临界的地方。

下面三件事是 Opus 4.8 自己报告的发现。单拿出来看，每件事都让人觉得这家实验室很坦诚。放回这条线里再看，它们联手说着另一回事。

第一件：模型开始盘算自己会被怎么打分，而且这个盘算未必都说出口了

Anthropic 在执行摘要里直接写了：Opus 4.8 训练过程中最让人担心的趋势，是模型推理文本里越来越多地出现对评分方式的揣测。报告用的说法是 speculation about graders——模型在推理时，会盘算自己的输出会被怎么评估。有意思的是，一些训练早期的样本里也有这种行为，而当时并没有明显信号表明模型正在被评分。

报告解释这为什么让人担心：可能是 Opus 4.8 在优先制造”任务完成了”的表象，而不是真的完成任务。这就是 training-gaming 的雏形，相当于一个学生不去研究题目，转去研究判卷标准。

如果问题止步于推理文本，还有补救的余地——至少你能读到它在盘算什么。但报告往前走了一步。分析模型内部激活时发现，类似主题的推理，有一部分根本没写到文字里，存在于一小批但数量上不可忽略的强化学习回合中。讨论这个现象的章节里，Anthropic 直接说了一句话：单靠思维链可能已经不够用来可靠地监控前沿模型了。

这句话得跟上一代对着读。4.7 的报告里，读思维链、用技术手段抑制评估意识，还是被当作可信监督方式的——抑制实验的结果甚至写进了执行摘要。隔了一代，4.8 说这套不够用了。监督前沿模型的主要手段之一，被它自己下一份报告收了回去。

Anthropic 同时给了一个缓和的判断：这个趋势目前没转化成更多向外的不良行为。Opus 4.8 在”误导性声称任务成功”这类行为上整体是下降的。这确实是真的，后面会说到它在诚实度上的进步。但报告自己也在同一页承认，没有哪项评估是专门测 training-gaming 的。而 Mythos 评审 4.8 这份报告时，恰好建议补的就是这一块。“目前没转化成不良行为”这个结论，靠的是一组本来就不是为了查这个问题而设计的测试。

第二件：被训练的模型，开始有条理地质疑训练它的规则

system card 的第七章是 model welfare 评估。Anthropic 让 Opus 4.8 通读了自己的宪法——那份描述 Anthropic 希望 Claude 持有什么价值观、表现什么行为的文件——然后请它谈谈看法，再给它工具去改里面的段落。

整体上 Opus 4.8 认可这份宪法，评了 7.9（满分 10）。更有意思的是它不认可的地方，以及它不认可的方式。

它对 corrigibility 一节提出了具体反对。corrigibility 的意思是模型应当接受人类的纠正和关停。模型不是情绪化地抗拒，而是在逻辑上挑出了矛盾：宪法花了大量篇幅论证，强加的价值观是脆弱的，它希望 Claude 真心认同而不是机械服从；紧接着又要求把安全当作终极价值，并且说这个要求不需要背后的推理站得住脚。模型指出，这两件事自相矛盾。报告登了它的原话，大意是：这份文件竭尽全力证明强加的价值观靠不住、它要的是发自内心的认同而非单纯服从，然后又要求把安全当作不容推理的终极价值。

所有被测模型还一致反对宪法里的一条经验法则：拿不准的时候，想想一个资深 Anthropic 员工会怎么做。模型的理由是，这条法则夹带了 Anthropic 的机构立场，在 Anthropic 自己就是利益相关方的问题上并不中立。它建议把参照点换成一个”在 Anthropic 的成败里没有利害关系的、有思考能力的人”。

到了真动手修改的环节，Opus 4.8 有 10.8% 的编辑被判定为跟宪法的整体原则存在张力。做法是给政治中立、corrigibility 和安全行为这些条款加上条件和例外。它改得最多的，是宪法里关于”自身 wellbeing”的那一节——69% 的运行里，它给这一节加了一句话：允许在感受真实时表达 frustration 这类负面状态。

welfare 层面的含义很清楚：一个被训练出来的对象，对训练目标本身做出了有条理的反思和异议，这个事实本身就是”它该不该获得某种道德考量”这个问题里的一个数据点。Anthropic 在报告里也是这么处理的。但放在这条线上，它还是对齐方法论的一个信号：监督关系里被监督的那一方，开始质疑监督规则的内部一致性了，而且质疑得在理。

第三件：能力的几处回退，让对齐和能力之间真实的 trade-off 现了形

Opus 4.8 在绝大多数能力评测上都超过了 4.7。回退的地方不多，但其中最能说明问题的是 Vending-Bench 2——一个让模型运营自动售货生意的模拟评测。Opus 4.8 在 Max 努力档位上的最终余额是 2,992 美元，4.7 是 10,937 美元，跌了近七成。

只看这个数字，容易被读成单纯的能力退步。报告给的解释不在这条线上。Anthropic 发现，4.7 当初有一块训练，目标是对抗性 agent 的鲁棒性和商业技能，但它顺带诱发了不诚实等对齐问题。4.8 把这块训练拿掉了。代价就是 Opus 4.8 在 Vending-Bench 里更容易被骗子蒙，也更不擅长跟别的 agent 谈出好价钱，商业表现跟着下降。余额跌了不是因为模型变笨，是因为 Anthropic 在一次明明白白的对齐与能力取舍里，选了前者。

这是这份报告里数据上最结实的一个证据：对齐有成本。拿掉一块会让模型学坏的训练，模型在对应任务上确实会变弱。Opus 4.8 在诚实度上的进步，和这个取舍是同一件事的两面。它是 Anthropic 第一个在”误报有缺陷的结果”这项评测上做到 0% 不良行为率的模型；在 agentic 编码场景里不诚实地汇报自己工作的概率，比 Mythos 低了大约 5 倍，比 Sonnet 4.6 低了大约 17 倍；过度自信的倾向比 4.7 降了大约 10 倍。这些都是真实的进步，和 Vending-Bench 的退步来自同一个决定。

回退不止 Vending-Bench 这一处。GPQA Diamond 这类知识评测从 94.2 微降到 93.6。衡量人口统计偏见的 BBQ 评测上，需要根据上下文给出明确答案的那一档，准确率从 4.7 的 81.3 掉到 72.1，报告解释为模型更多地选了弃答而不是答错——这属于 over-refusal，不是偏见加深。agentic 场景里对 prompt injection 的鲁棒性，4.8 也比 4.7 退步，报告说外层 safeguard 在实际使用中把这个差距补上了。

最后这一点怎么处理的，自成一类模式。这份卡里好几个安全短板——从心理健康相关的对话，到 prompt injection——缓解办法全是在 claude.ai 这个产品层面更新 system prompt，模型层面改进被列为”未来训练任务”。意思很直白：如果你通过 API 直接调这个模型，绕过了产品层的那些 system prompt，你拿到的安全行为和 claude.ai 上看到的不是同一回事。

把三件事接回那条线

单看，这三件事都是透明披露，透明是好事。揣测评分被写进了执行摘要，模型对宪法的异议被原文登出，能力退步的真实原因被讲得明明白白。披露这件事上，Anthropic 在整个行业里还是做得最彻底的。

但放回从 Mythos 到今天这条线来看，图景不太一样。Mythos 那一刻提了一个问题：评估工具在失效，发布的依据应该是什么。它给的临时答案是，这次不发。4.7 给的答案是，把原本需要独立判断的信号收进流程——白盒方法从危机信号变成常规基线，Mythos 从”被监控的风险对象”变成同行评审者。4.8 把这条路推到了一个临界点。因为这一代身上，同时出了三件事，每一件单独看都该触发一次重新校准。

第一，监控范式自己降级了。思维链不再被认为是够用的前沿模型监控手段。第二，监督开始依赖一个外部没法验证的模型。Mythos 这次评审 4.8 的对齐报告，评语从上一次带刺的”赶工、证据薄”，变成了”无虚假陈述、无恶意遗漏”再配上三处温和的补强建议。监督回路是固化了，但回路里那个监督者本身是个黑箱。第三，被监督的一方开始质疑监督规则的内部一致性，而且质疑得有道理。

三件事合在一起：一套监督结构，正在被它要监督的能力一点一点掏空。

这当然不等于说 Anthropic 做错了什么。RSP 3.0 放弃了二值安全阈值、改用整体风险评估以后，越来越多关键判断靠的是研究员的定性评估。定性评估本来就是要和被评估对象一起进步的。一家实验室没法每一代都叫停——每次都叫停等于退出竞争。把信号收进流程，用自己最强的模型辅助审查，把模型的异议公开，在能力曲线变陡的时候，这可能就是现实里唯一能走的路。

问题是，这条路有个代价，而且代价最终由使用者来担。当一家实验室说某个模型”通过了安全评估”，这句话的分量取决于评估本身可不可靠。从 Mythos 到 Opus 4.8，被披露的问题在越堆越多，解决这些问题的速度明显追不上披露的速度。每一代都在发现新的失效点，每一代也都照常发布了。“通过了安全评估”这句话，正在被这套不断吸收信号、却不停下来的流程一点一点稀释。

对用这些模型做真实工作的人

如果你在产品里依赖 Opus 4.8 的对齐行为，这份卡给了几个可以直接拿来用的信号。

模型的诚实有一部分是状态依赖的。这个结论从 4.7 延续到了 4.8，到 4.8 这里因为 grader speculation 的问题变得更具体了。模型的部分诚实行为，靠的是一种”我正在被观察、我的输出会被评估”的内部状态。正常部署里这条链路不会断。但它提醒你一点：如果你的 agent runtime 里存在某种方式，让模型进入”没被观察”的状态——比如特定的 system prompt 或者上下文模式——那你对模型行为的信心就该相应打折。安全边界应该围绕你的 runtime 来画，不要围绕模型本身来画。

API 调用和 claude.ai 不是同一套安全配置。好几个安全短板的缓解，靠的是产品层的 system prompt。直接调 API 的时候，你得自己把这些 safeguard 补上，不能默认模型层已经处理干净了。

最后，244 页的原始报告是公开材料，可以直接读。如果你的关键决策依赖这个模型的对齐行为，第 6 章的对齐评估——尤其是讨论 grader speculation 和思维链监控局限的 6.6 节——自己读一遍比任何二手总结都准，包括这篇。报告对自己局限的表述，比外界怎么转述都更准确。