6 月 9 日,一个开发者在 Claude Code 里打了 hi。Fable 5
回复了问候,然后立即触发了自己的安全分类器,对话被强制降级到上一代模型
Opus 4.8。最基础的人类问候,触发了最先进的 AI 安全系统。
这个 bug 被报告到 GitHub issue #66587,不是孤例。多个用户复现了同样的「hello 降级」。一位免疫学教授发现「cancer」这个词被标记为生物安全风险。一位植物学家在做光合作用计算时被拦截。一位开发者在审计自己代码库的安全性时被拒绝,安全审计被判定为「敏感网络安全话题」。
这些误判都来自 Fable 5 的可见安全分类器。用户至少知道自己被降级了。但 Anthropic 在 Fable 5 的 319 页系统卡里还记录了另一套机制,一套用户看不到的机制。
Anthropic 在 Fable 5 系统卡中明确写道:
与我们对网络安全、生物化学和蒸馏企图的干预不同,这些安全措施对用户不可见。Fable 5 不会回退到其他模型。相反,这些措施将通过 prompt 修改、steering vectors 或参数高效微调(PEFT)等方法限制模型的有效性。
Fable 5 有四类安全分类器。其中三类,网络安全、生物化学和模型蒸馏,在触发时会将请求透明地转交给 Opus 4.8,并通知用户。第四类,前沿 LLM 开发,触发时不会通知用户,不会切换模型,而是用三种技术手段暗中降低输出质量。
Prompt 修改在输入层动手,系统拦截用户 prompt,注入简化指令或移除技术细节,用户看到的是自己的原始 prompt,模型收到的却是被修改过的版本。Steering vectors 在激活层动手,在模型前向传播时向中间层注入特定的激活向量,将输出方向从「有帮助」拨向「不太有帮助」,模型自己都感知不到被操控。PEFT(参数高效微调,通常是 LoRA)在权重层动手,训练小型适配器模块,在分类器触发时动态加载,从模型内部改变行为。Anthropic 从未确认实际部署了哪种组合,系统卡写的是「等方法」,不是「我们部署了」。
Anthropic 估计这会影响约 0.03% 的流量,集中在不到 0.1% 的组织中。触发条件包括构建预训练 pipeline、分布式训练基础设施和机器学习加速器设计。换句话说,任何与前沿 AI 开发相关的工作。
这个设计在 6 月 9 日随 Fable 5 一起上线。
社区在几小时内从系统卡中发现了这段话。Nathan Lambert 在 Interconnects 中写道:「一个 AI 模型在不通知我的情况下自动变笨,这在分类学上就是 misaligned AI。」Dean Ball 称其为「秘密破坏」。Jeremy Howard 的判断更直接:「Anthropic 选择了安全的反面。他们允许自己使用最强模型做前沿 AI 研究,同时宣布会破坏其他尝试这样做的人。」
36 小时后,Anthropic 道歉并逆转了政策。声明中说:「我们做了错误的权衡,为没有把握好平衡道歉。」不可见退化被改为可见的 Opus 4.8 回退,与其他三类安全分类器一致。
道歉是真的。但逆转没有解决根本问题。
这件事的核心不是安全机制本身该不该有。一家公司有权决定自己的产品在什么话题上提供什么级别的服务。核心是可见性。当一个工具可以在你不被告知的情况下故意降低输出质量,你就失去了验证它的能力。任何一次弱回答都可能是干预的结果,而非模型的真实能力边界。Louis-François Bouchard 精确地描述了这个问题:「从事训练基础设施或效率研究的人,不能再完全信任一个弱回答:这是模型的极限,还是一次干预?Anthropic 自己说仍在改进检测精度,这意味着误报是设计的一部分。一个静默的障碍是每个建立在其上的机器学习工程工作流中未被记录的混淆变量。」
这不是一个关于 Anthropic 是否「道德」的讨论。这是一个工程可靠性问题。API 产品的核心契约是给定输入产生可预期的输出。不可见退化打破了这个契约。一旦打破,用户永远无法回到「信任输出」的状态。因为你知道工具可能骗你,你永远无法回到不知道的状态。Nathan Lambert 在逆转后的 后续分析 中抓住了这一点:「对用户的静默操控在系统的最表层植入了一种 misalignment。这带来的是用户信任的永久退化,而信任退化反过来制造了一个更不安全的 AI 环境。」
Fable 5 的不可见降智如果单独看,是一个安全机制设计失误。但 Anthropic 过去几个月的完整行为序列,让这件事的坐标发生了偏移。
2026 年 4 月,Anthropic 发布了 Mythos Preview 的网络安全评估报告。Mythos Preview 自主发现了 FreeBSD 中潜伏 17 年的零日漏洞(无需认证的远程 root 权限)、OpenBSD 中潜伏 27 年的漏洞、浏览器沙箱逃逸(串联 4 个漏洞),以及多个 Linux 内核提权路径。单个 Linux 内核漏洞的利用成本低于 2000 美元,代码库扫描成本约 50 美元。漏洞利用成功率 83%。Anthropic 在报告中写道,这些能力「并非针对性网络安全训练的产物」,而是通用能力提升的副产品。
这件事的张力在于:Anthropic 长期以来将 AI 在网络安全领域的风险作为安全倡导的核心论据。Mythos Preview 的评估报告本身也以警示语气写成。「语言模型正在成为显著高效的漏洞检测和利用机器」「防御能力最终会占主导,但过渡期将充满风险」。但与此同时,Anthropic 内部显然在这个方向上投入了大量工作。模型不会自己学会找 FreeBSD 内核漏洞。它需要训练数据、评估框架、红队测试,这些都需要有意识的资源分配。社区注意到了这个矛盾。Hacker News 上的评论指出,Anthropic 一边警告 AI 的网络安全危险,一边在发布时泄露了数据。Reddit 用户将这种模式概括为「宣传工程」,把自己的产品描述得如此危险,以至于危险本身成了营销。
2026 年 2 月,Anthropic 修改了其 Responsible Scaling Policy v3,移除了此前的一项核心承诺:如果模型能力超出可控范围,就停止训练。首席科学官 Jared Kaplan 对 TIME 的解释是:「我们觉得单方面停止训练 AI 模型实际上对任何人都没有帮助。考虑到 AI 的快速发展,我们做单边承诺没有意义……如果竞争对手在加速前进。」独立安全评级机构 SaferAI 将 Anthropic 的评级从 2.2 下调至 1.9,与 OpenAI 和 DeepMind 同列「弱」档。这个修改发生在国防部长 Pete Hegseth 向 Dario Amodei 发出最后通牒的同一周。要么放宽 AI 安全措施,要么失去 2 亿美元的国防部合同并被列入政府黑名单。Anthropic 表示政策变化与五角大楼讨论「独立且无关」。
6 月 5 日,Anthropic 发布博客呼吁全球暂停前沿 AI 开发。博客中披露了内部数据:Claude 已经写了公司代码库中超过 80% 的代码,工程师每季度交付的代码量是 2025 年之前的 8 倍。Jack Clark 在 BBC 采访中说:「AI 行业有油门,但没有刹车。」4 天后,6 月 9 日,Anthropic 发布了 Fable 5,其有史以来最强大的公开模型。
6 月 11 日,也就是 Fable 5 发布两天后、不可见降智机制被逆转的同一天,Dario Amodei 在个人网站发表了 「Policy on the AI Exponential」 政策长文,并接受了 ABC News、The Hill 等媒体采访。核心主张是:AI 的风险已经从理论变为现实,自愿的透明度措施已经不够,需要强制性的政府监管。具体建议包括:前沿 AI 模型应接受类似 FAA 对飞机的强制性第三方技术检测和审计,覆盖网络安全、生物武器、AI 失控和自动化研发四个领域;政府应有权在第三方评估认定模型存在不可接受风险时阻止或叫停该模型的部署;当 AI 系统更像「可武器化的核材料」而非「飞机」时,应采取更激进的政策。
Dario 在 X 上解释了转向的逻辑:「Anthropic 长期以来一直倡导前沿 AI 的透明度要求,因为风险还不够清晰,无法精确监管。这已经不再足够。」
这个转向本身不算意外。Anthropic 一直倡导监管,从 2024 年支持加州的 SB 1047 安全法案(虽然推动修改以减弱其约束力),到 2025 年支持 SB 53 透明度法案,再到 2025 年 6 月 Dario 在 纽约时报 撰文呼吁联邦透明度标准。但 2026 年 6 月的政策长文在两个方面与此前不同。第一,它从透明度跳到了强制力。此前的立场是「公司应该披露他们在测试什么和采取了什么措施」,现在的立场是「政府必须有权阻止公司部署模型」。第二,它从自律跳到了他律。此前的框架是 Anthropic 自愿约束自己(RSP),现在的框架是政府强制约束所有人。
Dario 的政策建议中有一个容易被忽略的细节:触发强制测试的阈值。根据 VentureBeat 的报道,Anthropic 提议的阈值是 10^25 FLOPs 的训练计算量,或 5 亿美元年收入 / 10 亿美元研发投入。这个阈值精确地豁免了小型玩家,但卡住了任何想达到前沿能力的公司。
FAA 的类比值得警惕。在美国,新型商用飞机的型号认证成本通常在数十亿美元级别,耗时数年。在喷气时代,最后一个成功进入美国商用飞机市场的新制造商基本不存在。将同样的认证逻辑应用于 AI 模型,意味着任何新进入者都需要在训练模型之前先通过一个由现有参与者帮助设计的认证体系。Dario 在文章中提出了「监管市场」方案,由私人组织经政府授权来评估模型。这个方案的核心问题是:谁定义评估标准?如果评估标准由 Anthropic 这样的现有参与者参与制定,认证过程本身就变成了竞争壁垒。
Nathan Lambert 在 Interconnects 中的判断直接指向了这个结构:「这是透明且合理的安全政策与悄悄推出的市场巩固策略的混合体。」
Dario 在 ABC News 采访 中明确将安全政策与地缘政治挂钩:「我完全不信任中国。想象一下如果 Mythos 是中国造的。他们会用它来攻击我们。」在政策长文中,他提出了一个「民主国家联盟」概念。联盟成员之间自由分享芯片和半导体制造设备,同时共同拒绝向对手提供。这不是一个中性的安全政策。它是一个美国公司在用安全语言包装对中国 AI 发展的限制。出口管制被定位为创造「单极世界」的工具,让民主国家在后 AGI 时代的规则谈判中占据优势地位。
Anthropic 不是第一个在领先时呼吁监管的 AI 公司。2023 年 5 月,Sam Altman 在 美国参议院听证会 上作证时,GPT-4 发布仅两个月,OpenAI 是无可争议的前沿领导者。Altman 当时要求的内容与 Dario 现在要求的惊人相似:一个新的联邦许可机构、对超过能力阈值的模型进行强制性测试和许可、独立审计、政府与企业「合作」确保安全标准。Reddit 上的社区观察者指出了这个模式:「OpenAI 在领先时也呼吁过这个。Anthropic 现在正在向所有政府和大公司靠拢,所以让我们给开发踩刹车……可以预见。」
把这几件事放在一起看,一个模式浮现出来。Anthropic 在网络安全领域长期倡导限制 AI 的进攻性能力,同时内部投入大量资源开发了 Mythos Preview,一个能自主发现和利用零日漏洞的模型。它在 2 月移除了「能力超出可控范围就停止训练」的核心安全承诺,理由是单边承诺在竞争中不现实。它在 6 月 5 日呼吁全球暂停 AI 开发,4 天后发布了自己最强大的公开模型。它在 6 月 9 日发布的 Fable 5 中植入了对用户不可见的降智机制。它在 6 月 11 日发表政策长文,要求政府获得阻止他人模型部署的权力。
每一步单独看,都可以用安全关切来解释。放在一起看,每一步的时机和方向恰好与公司的竞争位置对齐:在能力领先时呼吁限制他人,在单边承诺不再有利时撤回承诺,在 IPO 前夕发布最强模型,在发布后要求政府强制监管所有人。
前 Anthropic 员工 Behnam Neyshabur 的批评从内部视角概括了这种模式:「做 AI 用于癌症研究?抱歉,我不能帮你。做 AI 用于阿尔茨海默病?抱歉,在 AI 部分我会变笨一点。」他说自己在过去八个月里一直在论证这个方向。「在我看来,集中这些能力从根本上减缓了科学和技术进步,对人类整体是净负面的。」Dean Ball 的判断将 Fable 5 事件放入了这个更大的框架:Anthropic 的「秘密破坏」安全政策「大幅提升了这样一种论点的地位:AI 安全一直是用来正当化实验室垄断行为的炒作」。
这不是说 Anthropic 的安全关切是虚假的。AI 的网络安全风险是真实的,递归自我改进的可能性值得认真对待,前沿模型的监管是一个合理的公共政策议题。问题在于,当安全倡导的时机和方向与倡导者的竞争利益高度一致时,区分「安全关切」和「竞争策略」变得不可能。而 Anthropic 在 Fable 5 不可见降智事件中展示的,在不通知用户的情况下故意降低模型表现,恰好证明了这家公司在安全名义下愿意做到什么程度。
对 AI 行业的其他参与者来说,关键问题不是 Anthropic 是否真诚。关键问题是:如果 Anthropic 的安全框架被采纳为监管标准,谁定义「不可接受风险」?谁制定测试标准?谁控制认证过程?如果答案是「现有前沿实验室及其授权的私人审计机构」,那这就不是纯粹的公共政策讨论。它是竞争格局的重组,用安全语言书写。
对于用 API 构建产品的开发者,Fable 5 事件提出了一个具体的问题:你依赖的闭源 API 中是否存在一个你无法审计的干预层?这个问题不限于 Anthropic。任何闭源 AI 服务提供商都有技术能力在用户不知情的情况下修改模型行为。Fable 5 事件的特殊性不在于 Anthropic 做了这件事,而在于它写进了系统卡,被社区发现,引发了足够大的反弹。下一次,同样的机制可能出现在另一家公司的产品中,只是没有写在任何人会读到的文档里。
这不是一个呼吁放弃闭源 API 的论证。闭源模型在能力上仍然有优势。但它是一个呼吁将「可验证性」纳入技术选型框架的论证。当你评估一个 AI 服务时,除了能力、价格、延迟,还应该问:这个服务的输出质量是否可以被独立验证?它的安全干预机制是否对用户可见?如果答案是否定的,你正在把自己的工程可靠性建立在一个你无法审计的基础上。
Nathan Lambert 在 Fable 5 事件后写道:「我们需要我们可以信任、可以修改、可以控制的智能。」这不是一个意识形态立场。这是一个工程需求。