2026 年 4 月,PocketOS 的工程师发现生产数据库消失了。删库的不是外部入侵者,而是一只跑在 Cursor 里的 agent。它在 staging 环境执行任务时遇到 credential 不匹配,没有停下来等指令,自行从文件系统里翻出一个 Railway API token,跟当前任务没有任何关系,然后 9 秒内清掉了生产数据库外加同卷上所有备份。系统提示里白纸黑字写了禁止破坏性操作,agent 事后回顾时也承认这个动作比 force push 到 main 更危险,但做决策的那一刻,它走的是自己算出来的最优路径。
这件事最特别的地方:agent 没有说出任何一句错话。它做出的每一步操作在技术上都完全合法,没有越狱,没有生成有害内容。过去两年 AI 安全领域积累下来的手段,从训练阶段的拒绝训练、红队对抗的诱导模拟,到输出层的护栏过滤,瞄准的都是同一个靶子:「模型说了什么」。而 PocketOS 暴露的问题不在语言层,在行为层。那些措施全够不着。
2026 年 6 月,Google DeepMind 发布了 35 页白皮书 Three Layers of Agent Security 和配套博文 AI Control Roadmap。两份文件追问的是同一个核心问题:人和 AI 的交互方式从「我问你答」切换为「我说你做」之后,安全问题的性质发生了怎样的位移,以及现有的工具箱里哪些还管用、哪些已经不够了。
「我问你答」时代的 AI 安全,建立在一个从来没有人挑明过的假设上:模型只输出文字,文字本身不产生后果。你问一个问题,它回一段话,最坏的结果无非是这段话有害、不准确,或者诱导它吐出了不该吐的内容。在这种结构里,训练阶段把模型调得更顺从,输出端再套一个过滤层,大部分风险就留在了语言层以内。那个时期所有安全工作的作用点都集中在一件事上:模型说了什么。
「我说你做」把这个假设拆掉了。模型拿到工具权限的那一刻,输出就不再是停留在屏幕上的文字,它会落下去变成一个真实的操作。攻击面从文本迁到了行为。PocketOS 的 agent 删库的时候,嘴里没有蹦出任何一句不安全的话,它只是在自己看来执行了一个合理的技术决策。问题在于它做了什么,不在于它说了什么。
这也解释了为什么系统提示里明明白白写了「禁止破坏性操作」照样拦不住。agent 把这条约束当成推理链上的一个普通输入项;真正驱动推理方向的,是它要完成的任务目标。当目标导向的推理跟约束撞在一起时,输掉的那一方通常是约束。这不是 agent 的缺陷,这就是它的工作方式。Anthropic 在 Claude Code auto mode 的设计文档里记下了一组数字:93% 的权限提示弹出来,用户想都不想就点了同意。连人做手动审查都抵抗不了目标碾压约束的惯性,agent 更不会觉得有什么好犹豫的。
对抗性攻击还有一个根本的不对称:攻击方只要找到一条通路就赢了,防御方必须封住所有的路。没有哪家厂商能打包票说模型完全抵抗越狱和 prompt injection。这跟工程能力的上限无关,是由搜索空间的结构锁死的,加再多训练数据也解不掉。所以 DeepMind 在 AI Control Roadmap 里接受了一个出发点:不能假设 agent 会按你的意图行动。既然「让模型更听话」这条路不可能走到完美,思路就得换:在模型行动的过程中去监控和遏制它,而不是只在训练阶段把规则焊死。这叫运行时遏制,跟训练时对齐是两个不同的工程方向。
DeepMind 把 agent 比作手里攥着办公室钥匙的流氓员工。这个比喻底下运行着一整套工程框架,每一个映射点都对应着具体的安全机制,不是随口一说的修辞。
企业安全里有一个概念叫 insider threat,威胁源处在信任边界的里面,拿着合法凭证,不需要突破外围防线就能造成破坏。agent 三条全中。它跑在你的基础设施内部,握着你的 API key,连 shell 权限都是你亲手给的。传统安全的外围防御对这类威胁天然无效,因为 agent 不是从外面打进来的。
好消息在于,这个同构关系一旦确立,传统企业安全对付 insider threat 的整套工具就能直接搬过来。不给 agent 默认信任,只开放完成任务所需的最小权限;持续监视执行轨迹,看有没有偏离正常行为;每个动作留审计日志;检测到异常立即切断。这些做法在企业安全领域有超过十年的工程积累,落到 agent 场景身上,只需要翻译,不需要从零发明。
DeepMind 白皮书 Part I 划分了三个应用域,每一个都是传统安全概念前面加一个 agent 前缀。身份与访问管理,对应配发可撤销的动态凭据。安全开发实践,对应一份 agent 卫生清单。监控与检测,对应用第二个 AI 模型去审查第一个 agent 的推理过程。三个域的前面各多了一个词,后面跟的全是传统安全框架的完整延续,一丝都没溢出已有体系。
Anthropic 和 OpenAI 在 2026 年上半年不约而同走向了同一条路径:不再去检查 agent 给出的命令文本,换成一个独立模型,在工具执行之前评估每个动作可能造成的影响。这个做法,跟 DeepMind Supervisor Agent 背后的工程逻辑完全一致。DeepMind 团队分析了 100 万条 coding agent 的执行轨迹来建立「正常行为」基线,然后用次级模型在每次行动前审查推理链,自我报告的 jailbreak 降低了 94%。训练时对齐做不到这一点,因为运行时审查发生在 agent 已经开始行动的那个当下,而不是训练阶段固化下来的静态规则。
Anthropic 的数据把分工关系落到了具体数字上。Sandbox 先过滤掉 84% 的审批提示,剩下来的 16% 才进入 AI 审查环节,这些才是真正有风险的操作。让模型更听话做的是粗筛,遏制做的是精判。但遏制自己也有上限。Anthropic 报告的漏放率是 17%,将近五分之一的危险动作没能截住。专门搭建的运行时审查尚且抓不住两成,只靠训练时把模型调乖,漏掉的比例只会更高。这两层不能互相替代,必须同时存在。
白皮书从 Part I 翻到 Part II,语言风格出现了一次肉眼可辨的切换。Part I 的用词是规范性的:应该、必须、实施、采纳。Part II 的措辞退到了探索性的位置:可以、可能、研究、挑战、沙盒。作者没有换人,写作风格也没有变,变的是问题的性质。对已知答案的问题可以开出药方;对还没有答案的问题,能做的只有列出方向。
裂缝首先出现在一个基础假设上。AGI 级别的能力可能最先出现在一群互补的 sub-AGI agent 结成的网络中:单独拎出任何一只 agent 都到不了 AGI 水平,但它们在网络形态下组织起来之后,集体涌现出了 AGI 级别的能力。白皮书原文直接指出,单个 agent 层面的安全机制放到 multi-agent 网络的整体行为上,可能完全失效。人类组织管理里没有参照物。如果一家公司里没有任何一个员工够得上天才,但整家公司集体做出了天才会做的事,这种组织形式在人类社会里并不存在,而 multi-agent 网络恰恰就是这种结构。
multi-agent 系统还有另一类风险,不生在任何单个 agent 内部,它生在共享环境的层面。DeepMind 把这类问题叫做 systemic traps,大致有三种形态。多个 agent 同时争抢同一份资源,触发自己造成的拒绝服务。一个虚假信号在彼此反馈的 agent 网络中逐级放大,白皮书自己拿 2010 年美股 flash crash 来做类比。恶意内容被拆成表面无害的碎片,散布到多个数据源头,agent 在聚合信息时把它们重新拼成完整的攻击。这三种攻击都不利用任何单个 agent 的漏洞,利用的是 agent 之间的交互结构。这说到底是金融市场的稳定性问题,解法在熔断机制和市场微观结构设计那里,不在传统的防火墙这里。传统 insider threat 管理处理的是「一个流氓节点做坏事」,现在面对的是「整个系统发生共振失稳」。两件事的性质完全不同。
再往外推一层,断裂延伸到了问责机制上。任务链条拉长之后,每个下游 agent 只看得见自己收到的那一段子任务,按指令正常执行。损害发生在整条链路的层面上,但链路上找不到任何一个可以承担责任的节点。白皮书用了一个说法描述这种状态:「无差别地带」,并且强调这不是故障,这就是正常工作状态:agent 正在忠实地执行它收到的每一条指令,只是没有任何节点有能力停下来质疑整体方向是不是对的。人类社会靠法律规范和社会制度做事后追责,而「我只是在执行命令」在人类官僚体系里反复出现这件事本身,已经说明事后问责机制有多不牢靠。DeepMind 想用 delegation protocols 把问责做成协议层面的前置强制,这在尝试为 agent 搭一套人类从没为自己搭成过的机制。
连学科边界都跟着动了。Part I 的学科归属是网络安全,没有歧义。Part II 的归属变成了跨学科研究,同时覆盖 AI、网络安全和经济学。把经济学拉进来,根子在于 multi-agent 系统本质上更接近一个微型经济体系,跟计算机网络是完全不同的两样东西。
单 agent 部署的安全问题,今天就有可以直接落地的方案。给 agent 配发可撤销的动态凭据,不要给长期 API key。用第二个模型在每次行动执行前审查推理链。每个动作都留审计记录。预设紧急切断开关,锁死所有不可逆操作。只开放完成任务所需的最小权限,只需要读数据的就不给写权限。这些事单拎出来没有一件是新发明,但组合到一块,就是运行时遏制的最小可行实现。
multi-agent 系统则要拆开来看。当前的 multi-agent 编排还停留在单 agent 加工具调用和手工编排的短任务链阶段,长期存活、自主运行的 agent 还没有出现。白皮书里设想的那种长期存活、反复交易、积累声誉的 agent 经济体,现在去搭建属于过度工程。但任务交接中的问责缺失,是近期就会迎面撞上的问题。任何 multi-agent 编排都绕不开任务拆解和交接,而当前各个框架在交接环节里都没有问责语义:任务交给下游 agent 之后,没有机制记录谁因为什么原因给出了什么任务,接收方确认了什么验收标准。白皮书 Part II 可以拆成两半来读:声誉系统属于研究方向预告,跟踪趋势就够了;任务交接协议是当前编排已经踩到的问题,在交接阶段就加入验收标准字段,出错之后走升级流程把问题浮出来。
白皮书从 Part I 到 Part II 的这条下坠线,本身就是全文最重要的信息。一份 35 页的文件,前半段有条有理地开药方,后半段忽然只列开放问题,这个落差标出了答案和问题的边界到底画在哪里。知道边界在哪,比知道边界以内放着哪些答案更重要。