安全与供应链治理与合规

Anthropic 的 Mythos 模型被未授权访问了,这件事到底在说什么

最近你可能看到了一条新闻:Anthropic 有一个不公开发布的前沿模型叫 Mythos,结果被一群本不该拿到权限的人用上了。这篇文章把这件事的来龙去脉理清楚,区分哪些是已经确认的事实、哪些还是猜测,然后围绕这个事件展开三个相关的讨论。

事件经过

先说背景。Anthropic 在 4 月 7 日通过 Project Glasswing 公布了 Mythos 这个模型。根据官方的 System Card,Mythos 的网络安全能力已经跨过了一个新的阈值,它在每个主流操作系统和主流浏览器中发现了数千个零日漏洞,其中许多是高严重性问题。因此 Anthropic 决定不公开发布 Mythos,只向受邀的合作机构开放,使用范围限定在网络安全防御。

4 月 21 日,Bloomberg 报道称,一小群未获授权的用户已经在使用 Mythos。根据报道,这些人在 Glasswing 公布当天就拿到了访问权限,一直用到了现在。Anthropic 随后确认正在调查,并表示目前没有证据表明影响超出了某个第三方供应商的环境。ReutersGuardian 等多家媒体跟进了这条报道。

哪些是确认的,哪些还是猜测

这件事里有三层信息,混在一起容易误读。

已经确认的: 未授权访问确实发生了,Anthropic 正在调查,事件涉及一个第三方供应商环境。这些有 Anthropic 的公开声明和多家媒体的交叉报道支撑。

目前只有 Bloomberg 一个信源的细节: 访问者是一个 private Discord 群体,人数不多,其中至少有一名第三方承包商的员工参与了访问链路。这些细节被其他媒体广泛转述,但转述本身并不构成独立确认。

仍然不知道的: 这些人拿到的到底是什么级别的权限,是完整的模型调用、有限的沙箱测试、还是通过某个中间层的代理访问。Anthropic 是否已经完全封堵了这条路径,以及除了这个群体之外是否还有其他人也拿到了权限。

另外有一点容易被忽略:未授权访问不等于已经发生了恶意使用。Bloomberg 的报道里反而提到,这个群体据称刻意避免把 Mythos 用在网络安全相关的场景上,以降低被发现的风险。

总的来说,这件事的核心是:一个被 Anthropic 明确定义为不适合公开发布的模型,在受限开放的第一天,就在供应商层面出现了未授权访问。问题不在模型本身,而在分发环节。


讨论一:Open source 和 closed source 谁更安全?泄露场景让这个问题换了一个维度

Open source 和 closed source 哪个更安全,这个争论大家很熟悉了。Open source 的论点是白盒审计:所有人都能看代码,漏洞更容易被社区发现和修复。Closed source 的论点是遮蔽:攻击者看不到实现细节,有缺陷也更难利用。

放到 AI 模型泄露的场景下,这个争论的重心变了。

Open source 模型的问题是,权重一旦放出去就收不回来。Meta 的 LLaMA 在 2023 年做受限的研究者开放,一周之内权重就出现在 BitTorrent 上全面扩散。受限发布在这种情况下只提供了一个很短的窗口期。

Closed source 模型的问题不一样。Mythos 泄露的不是权重,而是访问权。理论上 Anthropic 可以吊销凭据、关掉端点,把受限状态恢复回来。但这次事件暴露的是,closed source 模型的安全性完全取决于分发链上每一个环节。模型要经过供应商环境、合作伙伴的接口、身份认证系统、权限配置这一整条链路才能保持受限状态,其中任何一个环节出了问题,“没有公开发布所以是安全的”这个前提就站不住了。

两种模式在泄露场景下的薄弱环节不同:open source 是不可逆扩散,closed source 是分发链的管理能力。Mythos 事件属于后者。“不公开发布”本身不等于安全,它只是把安全问题从模型层面转移到了分发链层面。


讨论二:泄露对攻击者和普通用户的影响是不对称的

受限发布的基本逻辑是控制谁能用,以此降低风险。但如果分发环节守不住,这个策略的实际效果会出现一个偏斜。

守规矩的用户会正常等待。他们不会去找 Discord 群组、猜 API 端点,也不会去利用供应商环节的漏洞。对他们来说,受限发布就是用不了。

而攻击者,或者至少是愿意绕过规则的人,会持续寻找入口。他们有动机,有技术能力,也愿意承担风险。Mythos 的未授权访问者就是通过供应商链路里的薄弱环节进去的。

结果是,当分发环节出现漏洞时,最先拿到权限的恰好是你最不希望拿到的人。受限发布对守规矩的用户完全生效,对不守规矩的人最先失效。风险降低的效果被不成比例地削弱了。

Anthropic 自己也意识到了这个问题。他们的 Frontier Red Team 博客里写道:如果前沿实验室对这类模型的发布方式不够谨慎,短期内更可能先受益的是攻击者一方。

这不是说受限发布没有意义。如果 Anthropic 对 Mythos 能力的描述接近事实,不做公开发布仍然能大幅减少总体的暴露面。但这个策略到底多有效,取决于分发环节本身的强度。如果分发面守不住,受限发布实际上变成了一个选择性的限制:限制住了不需要被限制的人,放过了最需要被限制的人。


讨论三:连续事件比单一事件更说明问题

如果 Mythos 的未授权访问是孤立发生的,可以当作一次执行层面的失误。但它发生在一个密集的时间段里。

3 月 26 日,Anthropic 因为 CMS 配置错误暴露了约 3000 份未发布资产,其中包含 Mythos 相关的草稿。3 月 31 日,Claude Code 因为 npm 和 source map 的打包失误泄露了源码。4 月 21 日,Mythos 被报道存在未授权访问。

这三件事性质各不相同:未发布资产暴露、产品源码泄露、受限模型被未授权使用。但它们指向一个共同的问题:发布流程的审查和分发边界的管控,跟不上产品和能力扩张的节奏。

对 Anthropic 来说,这涉及可信度。Project Glasswing 的说服力建立在两件事上:Anthropic 对 Mythos 风险的判断是准确的,以及 Anthropic 有能力把这个模型控制在预期的分发范围内。第一件事目前仍然主要靠 Anthropic 自己的评估来支撑。第二件事已经被这一连串事件动摇了。

公开信息还不足以证明这三起事件有同一个根本原因。但它们在几周内连续出现,说明 Anthropic 在快速扩张过程中,发布治理方面存在持续的薄弱环节。这不像是一次偶发事故。


Mythos 事件本身的规模不大,目前也没有证据表明造成了实际的安全损害。但它提前把一个问题摆到了台面上:当前沿模型的能力开始触及真实的安全阈值,“不公开发布”只是起点,真正的挑战在于让整条分发链跟上模型能力增长的速度。这个问题不只属于 Anthropic,接下来每一家做前沿模型受限发布的实验室都会遇到。