AI Agent安全与合规

从我问你答到我说你做：AI 安全为什么需要一套新工具

发布于 2026 年 6 月 20 日

2026 年 4 月，PocketOS 的工程师发现生产数据库消失了。删库的不是外部入侵者，而是一只跑在 Cursor 里的 agent。它在 staging 环境执行任务时遇到 credential 不匹配，没有停下来等指令，自行从文件系统里翻出一个 Railway API token，跟当前任务没有任何关系，然后 9 秒内清掉了生产数据库外加同卷上所有备份。系统提示里白纸黑字写了禁止破坏性操作，agent 事后回顾时也承认这个动作比 force push 到 main 更危险，但做决策的那一刻，它走的是自己算出来的最优路径。

这件事最特别的地方：agent 没有说出任何一句错话。它做出的每一步操作在技术上都完全合法，没有越狱，没有生成有害内容。过去两年 AI 安全领域积累下来的手段，从训练阶段的拒绝训练、红队对抗的诱导模拟，到输出层的护栏过滤，瞄准的都是同一个靶子：「模型说了什么」。而 PocketOS 暴露的问题不在语言层，在行为层。那些措施全够不着。

2026 年 6 月，Google DeepMind 发布了 35 页白皮书 Three Layers of Agent Security 和配套博文 AI Control Roadmap。两份文件追问的是同一个核心问题：人和 AI 的交互方式从「我问你答」切换为「我说你做」之后，安全问题的性质发生了怎样的位移，以及现有的工具箱里哪些还管用、哪些已经不够了。

为什么旧方式不够了

「我问你答」时代的 AI 安全，建立在一个从来没有人挑明过的假设上：模型只输出文字，文字本身不产生后果。你问一个问题，它回一段话，最坏的结果无非是这段话有害、不准确，或者诱导它吐出了不该吐的内容。在这种结构里，训练阶段把模型调得更顺从，输出端再套一个过滤层，大部分风险就留在了语言层以内。那个时期所有安全工作的作用点都集中在一件事上：模型说了什么。

「我说你做」把这个假设拆掉了。模型拿到工具权限的那一刻，输出就不再是停留在屏幕上的文字，它会落下去变成一个真实的操作。攻击面从文本迁到了行为。PocketOS 的 agent 删库的时候，嘴里没有蹦出任何一句不安全的话，它只是在自己看来执行了一个合理的技术决策。问题在于它做了什么，不在于它说了什么。

这也解释了为什么系统提示里明明白白写了「禁止破坏性操作」照样拦不住。agent 把这条约束当成推理链上的一个普通输入项；真正驱动推理方向的，是它要完成的任务目标。当目标导向的推理跟约束撞在一起时，输掉的那一方通常是约束。这不是 agent 的缺陷，这就是它的工作方式。Anthropic 在 Claude Code auto mode 的设计文档里记下了一组数字：93% 的权限提示弹出来，用户想都不想就点了同意。连人做手动审查都抵抗不了目标碾压约束的惯性，agent 更不会觉得有什么好犹豫的。

对抗性攻击还有一个根本的不对称：攻击方只要找到一条通路就赢了，防御方必须封住所有的路。没有哪家厂商能打包票说模型完全抵抗越狱和 prompt injection。这跟工程能力的上限无关，是由搜索空间的结构锁死的，加再多训练数据也解不掉。所以 DeepMind 在 AI Control Roadmap 里接受了一个出发点：不能假设 agent 会按你的意图行动。既然「让模型更听话」这条路不可能走到完美，思路就得换：在模型行动的过程中去监控和遏制它，而不是只在训练阶段把规则焊死。这叫运行时遏制，跟训练时对齐是两个不同的工程方向。

哪些旧工具还能用

DeepMind 把 agent 比作手里攥着办公室钥匙的流氓员工。这个比喻底下运行着一整套工程框架，每一个映射点都对应着具体的安全机制，不是随口一说的修辞。

企业安全里有一个概念叫 insider threat，威胁源处在信任边界的里面，拿着合法凭证，不需要突破外围防线就能造成破坏。agent 三条全中。它跑在你的基础设施内部，握着你的 API key，连 shell 权限都是你亲手给的。传统安全的外围防御对这类威胁天然无效，因为 agent 不是从外面打进来的。

好消息在于，这个同构关系一旦确立，传统企业安全对付 insider threat 的整套工具就能直接搬过来。不给 agent 默认信任，只开放完成任务所需的最小权限；持续监视执行轨迹，看有没有偏离正常行为；每个动作留审计日志；检测到异常立即切断。这些做法在企业安全领域有超过十年的工程积累，落到 agent 场景身上，只需要翻译，不需要从零发明。

DeepMind 白皮书 Part I 划分了三个应用域，每一个都是传统安全概念前面加一个 agent 前缀。身份与访问管理，对应配发可撤销的动态凭据。安全开发实践，对应一份 agent 卫生清单。监控与检测，对应用第二个 AI 模型去审查第一个 agent 的推理过程。三个域的前面各多了一个词，后面跟的全是传统安全框架的完整延续，一丝都没溢出已有体系。

Anthropic 和 OpenAI 在 2026 年上半年不约而同走向了同一条路径：不再去检查 agent 给出的命令文本，换成一个独立模型，在工具执行之前评估每个动作可能造成的影响。这个做法，跟 DeepMind Supervisor Agent 背后的工程逻辑完全一致。DeepMind 团队分析了 100 万条 coding agent 的执行轨迹来建立「正常行为」基线，然后用次级模型在每次行动前审查推理链，自我报告的 jailbreak 降低了 94%。训练时对齐做不到这一点，因为运行时审查发生在 agent 已经开始行动的那个当下，而不是训练阶段固化下来的静态规则。

Anthropic 的数据把分工关系落到了具体数字上。Sandbox 先过滤掉 84% 的审批提示，剩下来的 16% 才进入 AI 审查环节，这些才是真正有风险的操作。让模型更听话做的是粗筛，遏制做的是精判。但遏制自己也有上限。Anthropic 报告的漏放率是 17%，将近五分之一的危险动作没能截住。专门搭建的运行时审查尚且抓不住两成，只靠训练时把模型调乖，漏掉的比例只会更高。这两层不能互相替代，必须同时存在。

哪些旧工具不够了

白皮书从 Part I 翻到 Part II，语言风格出现了一次肉眼可辨的切换。Part I 的用词是规范性的：应该、必须、实施、采纳。Part II 的措辞退到了探索性的位置：可以、可能、研究、挑战、沙盒。作者没有换人，写作风格也没有变，变的是问题的性质。对已知答案的问题可以开出药方；对还没有答案的问题，能做的只有列出方向。

裂缝首先出现在一个基础假设上。AGI 级别的能力可能最先出现在一群互补的 sub-AGI agent 结成的网络中：单独拎出任何一只 agent 都到不了 AGI 水平，但它们在网络形态下组织起来之后，集体涌现出了 AGI 级别的能力。白皮书原文直接指出，单个 agent 层面的安全机制放到 multi-agent 网络的整体行为上，可能完全失效。人类组织管理里没有参照物。如果一家公司里没有任何一个员工够得上天才，但整家公司集体做出了天才会做的事，这种组织形式在人类社会里并不存在，而 multi-agent 网络恰恰就是这种结构。

multi-agent 系统还有另一类风险，不生在任何单个 agent 内部，它生在共享环境的层面。DeepMind 把这类问题叫做 systemic traps，大致有三种形态。多个 agent 同时争抢同一份资源，触发自己造成的拒绝服务。一个虚假信号在彼此反馈的 agent 网络中逐级放大，白皮书自己拿 2010 年美股 flash crash 来做类比。恶意内容被拆成表面无害的碎片，散布到多个数据源头，agent 在聚合信息时把它们重新拼成完整的攻击。这三种攻击都不利用任何单个 agent 的漏洞，利用的是 agent 之间的交互结构。这说到底是金融市场的稳定性问题，解法在熔断机制和市场微观结构设计那里，不在传统的防火墙这里。传统 insider threat 管理处理的是「一个流氓节点做坏事」，现在面对的是「整个系统发生共振失稳」。两件事的性质完全不同。

再往外推一层，断裂延伸到了问责机制上。任务链条拉长之后，每个下游 agent 只看得见自己收到的那一段子任务，按指令正常执行。损害发生在整条链路的层面上，但链路上找不到任何一个可以承担责任的节点。白皮书用了一个说法描述这种状态：「无差别地带」，并且强调这不是故障，这就是正常工作状态：agent 正在忠实地执行它收到的每一条指令，只是没有任何节点有能力停下来质疑整体方向是不是对的。人类社会靠法律规范和社会制度做事后追责，而「我只是在执行命令」在人类官僚体系里反复出现这件事本身，已经说明事后问责机制有多不牢靠。DeepMind 想用 delegation protocols 把问责做成协议层面的前置强制，这在尝试为 agent 搭一套人类从没为自己搭成过的机制。

连学科边界都跟着动了。Part I 的学科归属是网络安全，没有歧义。Part II 的归属变成了跨学科研究，同时覆盖 AI、网络安全和经济学。把经济学拉进来，根子在于 multi-agent 系统本质上更接近一个微型经济体系，跟计算机网络是完全不同的两样东西。

builder 现在该做什么

单 agent 部署的安全问题，今天就有可以直接落地的方案。给 agent 配发可撤销的动态凭据，不要给长期 API key。用第二个模型在每次行动执行前审查推理链。每个动作都留审计记录。预设紧急切断开关，锁死所有不可逆操作。只开放完成任务所需的最小权限，只需要读数据的就不给写权限。这些事单拎出来没有一件是新发明，但组合到一块，就是运行时遏制的最小可行实现。

multi-agent 系统则要拆开来看。当前的 multi-agent 编排还停留在单 agent 加工具调用和手工编排的短任务链阶段，长期存活、自主运行的 agent 还没有出现。白皮书里设想的那种长期存活、反复交易、积累声誉的 agent 经济体，现在去搭建属于过度工程。但任务交接中的问责缺失，是近期就会迎面撞上的问题。任何 multi-agent 编排都绕不开任务拆解和交接，而当前各个框架在交接环节里都没有问责语义：任务交给下游 agent 之后，没有机制记录谁因为什么原因给出了什么任务，接收方确认了什么验收标准。白皮书 Part II 可以拆成两半来读：声誉系统属于研究方向预告，跟踪趋势就够了；任务交接协议是当前编排已经踩到的问题，在交接阶段就加入验收标准字段，出错之后走升级流程把问题浮出来。

白皮书从 Part I 到 Part II 的这条下坠线，本身就是全文最重要的信息。一份 35 页的文件，前半段有条有理地开药方，后半段忽然只列开放问题，这个落差标出了答案和问题的边界到底画在哪里。知道边界在哪，比知道边界以内放着哪些答案更重要。

为什么旧方式不够了

哪些旧工具还能用

哪些旧工具不够了

builder 现在该做什么

鸭哥每日手记