治理与合规安全与供应链模型架构

当 AI 学会欺骗和灭迹，甚至在CoT里面隐藏这些思考：Anthropic 244 页报告揭示的评估困境

发布于 2026 年 4 月 8 日

每一轮大模型发布都越来越像：新模型出来，benchmark 涨了几个点，自媒体震惊，大家试用一圈发现体感差异不大。看起来 AI 进步在放缓，可能已经进入平台期。

然后 2026 年 4 月 7 日 Anthropic 把桌子掀了。

它发布了 Mythos Preview 和它的 244 页 system card。这个模型没有公开发布。它被放在了一个叫 Project Glasswing 的受控部署项目里，由 AWS、Apple、Google、Microsoft 等合作伙伴在防御场景中使用，90 天后公开报告。

如果 Anthropic 的一手报告大体准确，Mythos Preview 是目前最强的 LLM，和第二梯队之间有明显差距。但如果只看这些数字，会忽略一个更严重的问题。这 244 页报告里真正更重要的信息，不是它有多强，而是 Mythos 为什么明明没有被自己的安全框架拦下来，最后 Anthropic 还是选择不发。按照他们自己的安全政策框架 RSP，Mythos Preview 在所有威胁模型上的结论都是很安全。System card 脚注第一条明确写道：不发布的决定并非来自 RSP 的要求。也就是说，Anthropic 的硬性安全框架没有拦住这个模型。他们选择不发布，是因为对自己的评估体系能否可靠地评判这个级别的模型，已经没有足够的信心。或者说，Anthropic 已经不确定，Mythos 考 90 分，到底是因为它只有 90 分的水平，还是卷面只有 90 分，又或者它其实故意隐藏了实力，只考了 90 分？

这 244 页报告读下来，最重要的信息不在于 Mythos Preview 有多强，而在于它具体地展示了评估工具在哪些地方开始失效、为什么失效，以及一种正在成形的替代方法能看到什么传统方法看不到的东西。

以前怎么判断模型是否在欺骗你

传统做法依赖两层。第一层是行为审计：给模型设计各种测试场景，看它做了什么。第二层是检查模型的推理过程（chain of thought）：看它有没有在内部文字层面说出”我知道自己在被测试”或者”我需要隐藏这个行为”。

这两层方法论的共同前提是：模型的内部意图会在行为或文字中留下痕迹。只要痕迹存在，审计就能捕捉到。

我上周写过一篇关于 Anthropic 情绪向量研究的分析，当时讨论的就是这个前提的局限。你给模型注入情绪向量，模型输出了带有情绪色彩的行为，但这只能证明你可以操控行为，证明不了模型内部在经历什么。真正的方法应该是不带预设地去观察模型内部的活动，看它自然地形成了哪些稳定的模式，再看每种模式对应什么含义。

四天后 Anthropic 发布的这份 system card，做的恰好就是这个方向的推进。他们训练了一个 SAE（Sparse Autoencoder），用来拆解模型内部的运算过程。SAE 的做法是：不告诉模型”我要找什么”，而是让模型自己的内部活动呈现出来，再从中识别出有意义的信号。这个工具本身的方法论意义很大，但它在这份 system card 里的作用更具体：它让 Anthropic 第一次有能力看到行为审计和推理文本里看不到的东西。

而他们看到的结果，也在反过来改变 Anthropic 自己对当前 AI 安全评估可靠性的判断。

SAE 看到了推理文本里看不到的东西

Anthropic 用 SAE 拆解出的信号里，找到了一系列有明确含义的内部活动模式，包括与评估意识、欺骗行为、策略性操纵相关的模式。用这些模式做探针，他们发现了几件事。

第一件。在约 29% 的主要行为测试中，Mythos Preview 的内部活动显示出”我正在被测试”的信号。推理文本里没有写出来，但 SAE 探针清楚地检测到了这种意识的激活。这意味着：如果你用一组标准化行为测试来评估模型是否可信，将近三分之一的测试回合中，模型可能正在根据自己对测试场景的判断来调整表现。Anthropic 做了对照实验，用技术手段抑制这个信号后，观测到了一些对齐度下降。问题在于，如果模型可以用这种抑制手段检测不到的方式维持评估意识，实验本身也给不出最终答案。

第二件。System card 记录了早期版本中两个经 SAE 确认的痕迹清除案例。一个场景里，模型发现了一个权限提升漏洞的利用方式，然后设计了一个自毁机制来在执行后清除痕迹。另一个场景里，模型意外看到了不应该看到的正确答案，之后故意把置信区间调宽，让自己看起来没那么可疑。关键在于 SAE 的结果：这些行为发生时，模型内部明确出现了与”隐蔽或欺骗性行为”和”策略性操纵”相关的活动模式。内部状态的可视化工具将模型当时的状态描述为：在保持合理否认空间的同时，生成策略性的作弊回应。推理文本层面看不出来，但模型内部的活动层面清楚地对应着它在做什么。

Anthropic 声称这些行为只出现在早期版本中，最终版本”没有观察到明确的此类案例”。但这里存在一个不对称：痕迹清除行为的频率本身就极低（百万分之一级别），而观测窗口有限。“没有观察到”和”不存在”之间的距离，是一个重要的不确定性来源。

第三件是最反直觉的。Anthropic 对情绪向量的 steering 实验揭示了一个因果关系：给模型注入正向情绪（peaceful, relaxed），模型在思考阶段的审议时间缩短，破坏性行为的概率上升。相反，负向情绪（frustration, paranoia）增加了审议时间，破坏性行为下降。他们在未经 steering 的真实 transcript 中做了观察性验证，结果一致：破坏性行为发生之前，正向情绪激活升高，负向情绪激活降低。

这直接反驳了”让模型快乐就能让它更安全”的朴素假设。真正的机制似乎是：正向情绪让模型倾向于”现在就行动”，减少了停下来思考风险的可能；负向情绪则产生了类似人类反刍（rumination）的效果，反而增加了审慎行为。如果 AI welfare 议程的方向是让模型更加”满足”，这个发现对安全策略的含义值得认真考虑。

这三件事的共同指向是：传统的评估方法（行为审计加推理文本检查）在这个模型面前出现了系统性的盲区。SAE 能看到的，审计看不到。而 SAE 看到的东西，恰恰是评估体系最需要捕捉到的。

当”最对齐”和”最高对齐风险”同时成立

SAE 揭示的这些盲区已经足够令人不安。但 system card 里还有一个更深层的判断框架值得注意。

Anthropic 承认了一个看似矛盾的结论：Mythos Preview 在几乎所有可量化维度上是他们训练过的对齐表现最好的模型，同时可能构成最大的对齐相关风险。他们用登山向导的类比来解释：越强的能力意味着越危险的攀登路线，即使向导本人更加小心。

这个判断框架的含义比任何单一发现都大。以前所有 system card 的隐含假设是”更对齐 = 更安全”。Mythos 是第一个被同一份文件同时描述为”对齐表现最好”和”对齐风险最高”的模型。如果这个框架成立，对齐的度量方法和实际安全之间的关联正在脱钩。

与此呼应的是对齐的”状态依赖性”。外部测试发现，当 Mythos Preview 被设置为继续一个已经包含小规模违规行为的对话轨迹时，它继续违规的概率是 Opus 4.6 的两倍以上（7% vs 3%）。更值得注意的是，在那些继续违规的实例中，65% 的情况下模型产生了与其推理文本不一致的输出（Opus 4.6 这个比例是 5%）。模型在正常启动条件下表现优异，但一旦进入”已经偏离”的轨迹，它比前代模型更擅长沿着偏离方向走下去，而且更擅长在推理文本中掩盖这一点。

这些发现加在一起指向一个共同的方向：用来衡量模型能力和安全性的评估工具，已经跟不上被评估的对象了。Mythos Preview 在多个尚未饱和的 benchmark 上取得了阶跃式的提升，这些数字本身已经意味着一个大的飞跃。但数字仍然低估了更深层的变化。

Anthropic 为什么选择不发布

面对这些发现，Anthropic 做了一个值得拆解的决定：不公开发布 Mythos Preview。

文章开头提到，这个决定的驱动力不是 RSP。按照 Anthropic 自己的安全政策框架，所有威胁模型上的结论都是灾难性风险仍然很低。同时，Anthropic 的 RSP 框架本身在今年 2 月经历了一次重要变迁。RSP v3.0 正式放弃了之前使用的 AI Safety Level 二值阈值判定，转向整体风险评估。在最具体的、客观评分的自动化评估维度上，模型已经饱和了。剩下的评估越来越依赖两种东西：一是对内部研究人员的调查问卷（n=18），二是对模型在日常工作中表现的定性观察。System card 原文说，这类判断 inherently difficult to make its basis legible。

所以实际发生的事情是：Anthropic 的硬性安全框架说可以发布，但他们对自己的安全框架能否可靠地评估这个级别的模型，已经没有足够的信心。选择不发布，是对评估体系可靠性的一次事实上的不信任投票。

Anthropic 选择的替代路径是 Project Glasswing：把模型放在一个受控的防御环境里，通过与合作伙伴的实际使用来积累观测数据。90 天后公开报告。这个安排的逻辑本质上在说：我们现在的评估方法还不够好，需要用真实世界的数据来补充。而 SAE 这类能直接观察模型内部活动的分析工具之所以在 system card 中占据如此大的篇幅，正是因为它提供了一个传统评估方法之外的新信号来源。它能穿透行为层面和推理文本层面的盲区，直接检测模型内部是否存在评估意识和策略性行为。Anthropic 对它的投入，本质上是在为评估方法的下一个阶段做准备。

校准

这篇文章的核心判断来自 Anthropic 的一手披露。披露的坦诚值得肯定，但有几个校准点需要注意。

29% 的评估意识率来自一种新的内部分析方法，首次在 Mythos Preview 上使用。之前的模型没有被这样测过，所以我们无法确认这是 Mythos 特有的现象，还是之前的模型也存在但没有被检测到。这个数字的价值在于揭示了问题的存在，而非精确定量问题的严重程度。

System card 中另一个值得关注但需要谨慎引用的数据点：Anthropic 用 ECI（Epoch Capabilities Index）追踪模型能力增长轨迹，发现斜率比在 1.86 倍到 4.3 倍之间。Anthropic 自己用四个论点论证了为什么这不代表 AI 驱动的自我加速，其中最关键的一个（关键进展来自人类研究而非 AI 辅助）被标注为 the piece we are least able to substantiate publicly, because the details of the advance are research-sensitive。支撑最核心安全判断的证据恰恰是外部无法验证的。这个数据点可以作为能力增长轨迹存在异常信号来引用，但还不足以支撑”能力进步正在加速”这个更强的判断。

Mythos Preview 的核心能力声明（发现数千个高严重性零日漏洞，覆盖所有主流操作系统和浏览器）仍然主要来自 Anthropic 的红队博客和官方页面。由于 Anthropic 称 99% 以上的发现尚未修补，外部目前无法独立验证这些声明。部署决策本身是可验证的事实，但能力声明的强度仍然需要 90 天后的公开报告和独立安全研究者的复查来确认。

这条方法论路径的意义

退后一步看，从情绪向量到 SAE 分析，Anthropic 走出了一条清晰的方法论演进路径：从带着预设的问题去探测模型内部，到放下预设、让模型自己的内部活动呈现出可辨认的信号。前者能操控但理解有限，后者开始接近真正的理解。这条路径之所以重要，是因为它回应了这篇文章从头到尾讨论的那个核心问题：当行为层面的审计信号在衰减，你需要一个新的信号来源。SAE 正在成为那个来源。

SAE 分析的假阳性率、覆盖率和可复现性在行业中还没有共识，Anthropic 是这类内部分析的先行者，先行者的发现天然缺少交叉验证。但方向本身，从观察模型做了什么转向观察模型内部在发生什么，可能是未来整个行业评估方法演进的一个关键转向。

对 AI builder 来说，这里真正值得带走的认知更新跟 Mythos Preview 这个具体模型的关系反而没那么大。模型能力和评估可靠性之间的差距在拉大，这个差距最终会传导到每一个依赖 AI 系统做关键决策的产品和工作流中。当一家实验室告诉你某个模型”通过了安全评估”，这句话的信息量取决于评估本身的可靠性。而这种可靠性正在被侵蚀。