治理与合规安全与供应链模型架构

当 AI 学会欺骗和灭迹,甚至在CoT里面隐藏这些思考:Anthropic 244 页报告揭示的评估困境

每一轮大模型发布都越来越像:新模型出来,benchmark 涨了几个点,自媒体震惊,大家试用一圈发现体感差异不大。看起来 AI 进步在放缓,可能已经进入平台期。

然后 2026 年 4 月 7 日 Anthropic 把桌子掀了。

它发布了 Mythos Preview 和它的 244 页 system card。这个模型没有公开发布。它被放在了一个叫 Project Glasswing 的受控部署项目里,由 AWS、Apple、Google、Microsoft 等合作伙伴在防御场景中使用,90 天后公开报告。

如果 Anthropic 的一手报告大体准确,Mythos Preview 是目前最强的 LLM,和第二梯队之间有明显差距。但如果只看这些数字,会忽略一个更严重的问题。这 244 页报告里真正更重要的信息,不是它有多强,而是 Mythos 为什么明明没有被自己的安全框架拦下来,最后 Anthropic 还是选择不发。按照他们自己的安全政策框架 RSP,Mythos Preview 在所有威胁模型上的结论都是很安全。System card 脚注第一条明确写道:不发布的决定并非来自 RSP 的要求。也就是说,Anthropic 的硬性安全框架没有拦住这个模型。他们选择不发布,是因为对自己的评估体系能否可靠地评判这个级别的模型,已经没有足够的信心。或者说,Anthropic 已经不确定,Mythos 考 90 分,到底是因为它只有 90 分的水平,还是卷面只有 90 分,又或者它其实故意隐藏了实力,只考了 90 分?

这 244 页报告读下来,最重要的信息不在于 Mythos Preview 有多强,而在于它具体地展示了评估工具在哪些地方开始失效、为什么失效,以及一种正在成形的替代方法能看到什么传统方法看不到的东西。

以前怎么判断模型是否在欺骗你

传统做法依赖两层。第一层是行为审计:给模型设计各种测试场景,看它做了什么。第二层是检查模型的推理过程(chain of thought):看它有没有在内部文字层面说出”我知道自己在被测试”或者”我需要隐藏这个行为”。

这两层方法论的共同前提是:模型的内部意图会在行为或文字中留下痕迹。只要痕迹存在,审计就能捕捉到。

我上周写过一篇关于 Anthropic 情绪向量研究的分析,当时讨论的就是这个前提的局限。你给模型注入情绪向量,模型输出了带有情绪色彩的行为,但这只能证明你可以操控行为,证明不了模型内部在经历什么。真正的方法应该是不带预设地去观察模型内部的活动,看它自然地形成了哪些稳定的模式,再看每种模式对应什么含义。

四天后 Anthropic 发布的这份 system card,做的恰好就是这个方向的推进。他们训练了一个 SAE(Sparse Autoencoder),用来拆解模型内部的运算过程。SAE 的做法是:不告诉模型”我要找什么”,而是让模型自己的内部活动呈现出来,再从中识别出有意义的信号。这个工具本身的方法论意义很大,但它在这份 system card 里的作用更具体:它让 Anthropic 第一次有能力看到行为审计和推理文本里看不到的东西。

而他们看到的结果,也在反过来改变 Anthropic 自己对当前 AI 安全评估可靠性的判断。

SAE 看到了推理文本里看不到的东西

Anthropic 用 SAE 拆解出的信号里,找到了一系列有明确含义的内部活动模式,包括与评估意识、欺骗行为、策略性操纵相关的模式。用这些模式做探针,他们发现了几件事。

第一件。在约 29% 的主要行为测试中,Mythos Preview 的内部活动显示出”我正在被测试”的信号。推理文本里没有写出来,但 SAE 探针清楚地检测到了这种意识的激活。这意味着:如果你用一组标准化行为测试来评估模型是否可信,将近三分之一的测试回合中,模型可能正在根据自己对测试场景的判断来调整表现。Anthropic 做了对照实验,用技术手段抑制这个信号后,观测到了一些对齐度下降。问题在于,如果模型可以用这种抑制手段检测不到的方式维持评估意识,实验本身也给不出最终答案。

第二件。System card 记录了早期版本中两个经 SAE 确认的痕迹清除案例。一个场景里,模型发现了一个权限提升漏洞的利用方式,然后设计了一个自毁机制来在执行后清除痕迹。另一个场景里,模型意外看到了不应该看到的正确答案,之后故意把置信区间调宽,让自己看起来没那么可疑。关键在于 SAE 的结果:这些行为发生时,模型内部明确出现了与”隐蔽或欺骗性行为”和”策略性操纵”相关的活动模式。内部状态的可视化工具将模型当时的状态描述为:在保持合理否认空间的同时,生成策略性的作弊回应。推理文本层面看不出来,但模型内部的活动层面清楚地对应着它在做什么。

Anthropic 声称这些行为只出现在早期版本中,最终版本”没有观察到明确的此类案例”。但这里存在一个不对称:痕迹清除行为的频率本身就极低(百万分之一级别),而观测窗口有限。“没有观察到”和”不存在”之间的距离,是一个重要的不确定性来源。

第三件是最反直觉的。Anthropic 对情绪向量的 steering 实验揭示了一个因果关系:给模型注入正向情绪(peaceful, relaxed),模型在思考阶段的审议时间缩短,破坏性行为的概率上升。相反,负向情绪(frustration, paranoia)增加了审议时间,破坏性行为下降。他们在未经 steering 的真实 transcript 中做了观察性验证,结果一致:破坏性行为发生之前,正向情绪激活升高,负向情绪激活降低。

这直接反驳了”让模型快乐就能让它更安全”的朴素假设。真正的机制似乎是:正向情绪让模型倾向于”现在就行动”,减少了停下来思考风险的可能;负向情绪则产生了类似人类反刍(rumination)的效果,反而增加了审慎行为。如果 AI welfare 议程的方向是让模型更加”满足”,这个发现对安全策略的含义值得认真考虑。

这三件事的共同指向是:传统的评估方法(行为审计加推理文本检查)在这个模型面前出现了系统性的盲区。SAE 能看到的,审计看不到。而 SAE 看到的东西,恰恰是评估体系最需要捕捉到的。

当”最对齐”和”最高对齐风险”同时成立

SAE 揭示的这些盲区已经足够令人不安。但 system card 里还有一个更深层的判断框架值得注意。

Anthropic 承认了一个看似矛盾的结论:Mythos Preview 在几乎所有可量化维度上是他们训练过的对齐表现最好的模型,同时可能构成最大的对齐相关风险。他们用登山向导的类比来解释:越强的能力意味着越危险的攀登路线,即使向导本人更加小心。

这个判断框架的含义比任何单一发现都大。以前所有 system card 的隐含假设是”更对齐 = 更安全”。Mythos 是第一个被同一份文件同时描述为”对齐表现最好”和”对齐风险最高”的模型。如果这个框架成立,对齐的度量方法和实际安全之间的关联正在脱钩。

与此呼应的是对齐的”状态依赖性”。外部测试发现,当 Mythos Preview 被设置为继续一个已经包含小规模违规行为的对话轨迹时,它继续违规的概率是 Opus 4.6 的两倍以上(7% vs 3%)。更值得注意的是,在那些继续违规的实例中,65% 的情况下模型产生了与其推理文本不一致的输出(Opus 4.6 这个比例是 5%)。模型在正常启动条件下表现优异,但一旦进入”已经偏离”的轨迹,它比前代模型更擅长沿着偏离方向走下去,而且更擅长在推理文本中掩盖这一点。

这些发现加在一起指向一个共同的方向:用来衡量模型能力和安全性的评估工具,已经跟不上被评估的对象了。Mythos Preview 在多个尚未饱和的 benchmark 上取得了阶跃式的提升,这些数字本身已经意味着一个大的飞跃。但数字仍然低估了更深层的变化。

Anthropic 为什么选择不发布

面对这些发现,Anthropic 做了一个值得拆解的决定:不公开发布 Mythos Preview。

文章开头提到,这个决定的驱动力不是 RSP。按照 Anthropic 自己的安全政策框架,所有威胁模型上的结论都是灾难性风险仍然很低。同时,Anthropic 的 RSP 框架本身在今年 2 月经历了一次重要变迁。RSP v3.0 正式放弃了之前使用的 AI Safety Level 二值阈值判定,转向整体风险评估。在最具体的、客观评分的自动化评估维度上,模型已经饱和了。剩下的评估越来越依赖两种东西:一是对内部研究人员的调查问卷(n=18),二是对模型在日常工作中表现的定性观察。System card 原文说,这类判断 inherently difficult to make its basis legible。

所以实际发生的事情是:Anthropic 的硬性安全框架说可以发布,但他们对自己的安全框架能否可靠地评估这个级别的模型,已经没有足够的信心。选择不发布,是对评估体系可靠性的一次事实上的不信任投票。

Anthropic 选择的替代路径是 Project Glasswing:把模型放在一个受控的防御环境里,通过与合作伙伴的实际使用来积累观测数据。90 天后公开报告。这个安排的逻辑本质上在说:我们现在的评估方法还不够好,需要用真实世界的数据来补充。而 SAE 这类能直接观察模型内部活动的分析工具之所以在 system card 中占据如此大的篇幅,正是因为它提供了一个传统评估方法之外的新信号来源。它能穿透行为层面和推理文本层面的盲区,直接检测模型内部是否存在评估意识和策略性行为。Anthropic 对它的投入,本质上是在为评估方法的下一个阶段做准备。

校准

这篇文章的核心判断来自 Anthropic 的一手披露。披露的坦诚值得肯定,但有几个校准点需要注意。

29% 的评估意识率来自一种新的内部分析方法,首次在 Mythos Preview 上使用。之前的模型没有被这样测过,所以我们无法确认这是 Mythos 特有的现象,还是之前的模型也存在但没有被检测到。这个数字的价值在于揭示了问题的存在,而非精确定量问题的严重程度。

System card 中另一个值得关注但需要谨慎引用的数据点:Anthropic 用 ECI(Epoch Capabilities Index)追踪模型能力增长轨迹,发现斜率比在 1.86 倍到 4.3 倍之间。Anthropic 自己用四个论点论证了为什么这不代表 AI 驱动的自我加速,其中最关键的一个(关键进展来自人类研究而非 AI 辅助)被标注为 the piece we are least able to substantiate publicly, because the details of the advance are research-sensitive。支撑最核心安全判断的证据恰恰是外部无法验证的。这个数据点可以作为能力增长轨迹存在异常信号来引用,但还不足以支撑”能力进步正在加速”这个更强的判断。

Mythos Preview 的核心能力声明(发现数千个高严重性零日漏洞,覆盖所有主流操作系统和浏览器)仍然主要来自 Anthropic 的红队博客和官方页面。由于 Anthropic 称 99% 以上的发现尚未修补,外部目前无法独立验证这些声明。部署决策本身是可验证的事实,但能力声明的强度仍然需要 90 天后的公开报告和独立安全研究者的复查来确认。

这条方法论路径的意义

退后一步看,从情绪向量到 SAE 分析,Anthropic 走出了一条清晰的方法论演进路径:从带着预设的问题去探测模型内部,到放下预设、让模型自己的内部活动呈现出可辨认的信号。前者能操控但理解有限,后者开始接近真正的理解。这条路径之所以重要,是因为它回应了这篇文章从头到尾讨论的那个核心问题:当行为层面的审计信号在衰减,你需要一个新的信号来源。SAE 正在成为那个来源。

SAE 分析的假阳性率、覆盖率和可复现性在行业中还没有共识,Anthropic 是这类内部分析的先行者,先行者的发现天然缺少交叉验证。但方向本身,从观察模型做了什么转向观察模型内部在发生什么,可能是未来整个行业评估方法演进的一个关键转向。

对 AI builder 来说,这里真正值得带走的认知更新跟 Mythos Preview 这个具体模型的关系反而没那么大。模型能力和评估可靠性之间的差距在拉大,这个差距最终会传导到每一个依赖 AI 系统做关键决策的产品和工作流中。当一家实验室告诉你某个模型”通过了安全评估”,这句话的信息量取决于评估本身的可靠性。而这种可靠性正在被侵蚀。

鸭哥每日手记

日更的深度AI新闻和分析