AI 编程AI Agent

像管理实习生一样，管理 AI 编程工具

发布于 2026 年 7 月 3 日

最近三个月，前沿 AI 编程工具的发布日志表现出了高度的趋同。在日常开发中，各大 AI 编码控制端完全可以互换使用。这种合流并非巧合，它折射出人机协作关系的根本转变。我们不再使用一次性的聊天助手，而是开始雇佣「虚拟实习生」。要理解这一合流，我们需要先看清大模型在开发流程中的定位。

虚拟实习生：大模型的能力与局限

大模型在日常开发中，非常像一位虚拟实习生。它确实能提高开发效率。首先，它的检索速度极快。人类熟悉系统需要数周，它只需一秒。其次，它不知疲倦。它能全天候工作，且运行成本极低。它的响应以秒计算，这远比雇佣人类程序员便宜。

然而，这位下属的局限也很明显。第一，它没有空间感。由于看不见页面，它很难分清按钮或输入框。第二，它容易逻辑跑偏。在长任务中，它极易偏离目标，陷入死循环。第三，它缺乏常识。它无法判断修改是否安全，误操作容易损坏文件。

核心问题在于，大模型无法独立进行可靠的自我验证。这些局限使得它无法直接交付成品。为了让虚拟下属安全工作，开发者必须制定明确的规范。这套规范，正是各大主流工具正在合流补充的功能拼图。

协作规范：用控制端功能解决模型局限

为了解决上述局限，前沿工具在控制面上给出了高度趋同的解决方案：

针对自我验证的缺失：Cursor 提供了 /loop 技能；Claude Code 增加了 /loop 与 /goal 指令；Codex 则提供了独立的 agent loop。
针对空间感盲区：Cursor 推出了共享画布；Claude Code 提供了 Playwright 浏览器集成；Codex 则支持多线程项目工作空间。
针对逻辑跑偏与异步监控：Cursor 发布了 iOS 移动端；Claude Code 提供了 mobile remote 遥控功能；Codex 则是借助 ChatGPT 移动端来进行状态监控。
针对常识缺失与误操作风险：各大工具也都在强化安全沙箱与容器隔离。

这些高度趋同的特性，本质上是针对虚拟实习生的管理手段。

1. 质量检验：没有本地验证，自运行循环只是空谈

虚拟下属最明显的短板，在于无法自我验证。它们写完代码往往直接交工，不知道写得到底对不对。一旦让其盲目运行，智能体很容易陷入死循环或逻辑跑偏。

要解决这个差距，智能体不可能凭空工作。这正是我们在《Loop Engineering》中讨论的核心前提。为了实现自收敛，开发者需要在本地搭建起一套完整的验证底座：

业务数据集：提供符合业务需求的数据，无论是真实数据还是合成数据。
指标化业务测试：常规的功能测试已不再是瓶颈，真正的挑战在于引入量化指标，评估产出是否对齐业务。
验收标准：对齐最终的业务标准，设定清晰的成功指标。
反馈机制：在失败时捕获执行偏差，并将具体问题结构化地反馈给模型。

但即便有了这套验证底座，我们依然无法实现完全的无人值守。这主要是因为大模型自身存在着行为上的局限。

在跑长任务时，即便是 Opus 4.8 这样的顶级模型也会偷懒。遇到多次编译报错后，它倾向于寻找借口终止任务，比如回答”现在时间不早了，我们今天先到这里吧”。Codex 的 agent loop 在 harness 里强制 done when routine，就是为了抵消这种提前收工的倾向。

因此，我们需要在控制端上引入监工功能。这就是各大控制端争夺的自运行循环功能。

这并非什么魔法，而是用来弥补模型局限的工程辅助手段。系统通过程序识别偷懒行为，强制将其拉回轨道，直至达成标准。

在具体的工程设计上，这种自运行监工机制、定时轮询与定时任务的差异如下表：

维度	目标驱动自运行循环	会话级定时轮询	持久定时任务
退出条件	状态驱动，包含目标达成检查	无退出条件检查，固定重复	无退出条件检查，固定重复
触发方式	核心逻辑或模型状态驱动	固定时间间隔触发	固定时间计划触发
生命周期	运行至目标达成或用户终止	随当前终端会话关闭而失效	跨重启持久存活，有漏跑补跑
代表实现	Claude Code 的 /goal 命令	Claude Code CLI 的 /loop	Antigravity 的 /schedule 指令

目前，仅有少数工具拥有真正的目标驱动自运行循环。Claude Code 的 /goal 特性允许智能体自主进行多轮修改。在 OpenAI 的测试中，智能体连续运行了二十五小时，生成了三万行代码。而 Cursor 的 /loop 技能则混合了定时调度，目前在跟进这个方向。

2. 对账白板：解决空间盲区的视觉对齐

在人机协作中，视觉与空间意图很难用纯文本来描述。开发者很难用聊天文字讲清某个按钮的偏移或排布。因此，双方需要一个共享的视觉画布来消除沟通摩擦。这不仅是为了让管理者能直观验收智能体的成果，也是为了满足团队协作中设计与代码双向同步的需要。

这种对账白板的普及，反映了研发领域正在发生的系统性收敛。

一个明显的例证是 Figma 与编码工具在两端的对向合流：Figma 作为设计工具，推出了代码图层与 MCP 服务；而 Cursor 作为编码工具，则反向推出了共享画布。

设计工具在向下渗透，开发工具在向上延伸。双方最终在视觉对账这块白板上达成了共识。这打破了传统的代码生成流程，使开发与设计的边界彻底融合。

3. 任务派发器：异步托管下的移动终端

传统的桌面端编程，是一种必须即时反馈的强同步工作。但在管理虚拟下属的异步长任务模式下，情况变了。智能体执行长跑任务往往需要数十分钟甚至数小时。如果开发者必须端坐在屏幕前盯着日志，脑力消耗极大。

因此，人机协作必须走向异步，手机成为解耦的关键。移动端不写代码，它承担长程任务的异步控制。

首先，它是实时的状态监控工具。由于智能体存在跑偏风险且消耗令牌，管理者需要通过手机随时掌握进度，防止成本失控。

其次，它是轻量级的交互决策门。当智能体在后台遇到安全确认或关键决策时，会向手机推送并进行安全拦截。

管理者在手机上点击即可完成授权或终止操作。开发工作因此脱离桌面，成为异步的长程托管。

不过，这批功能指向两个相反方向。自运行循环和共享画布推智能体走向异步组织化。智能体长时间自主运行，产出供团队共享。iOS app 和 Design Mode 反过来推智能体走向个人贴身化。用户用手机随时监控，在界面上直接标注。两个方向同时出现在一次发布里。这说明 Cursor 同时押注两条路，还没收敛到终态。

环境隔离：防范下属误操作带来破坏

人类开发者具备基本的风险常识，而虚拟下属需要系统设置安全防线。为了防止下属误改关键文件，控制端必须构建隔离的运行环境。这就是 Claude Code 防御体系与 OpenHands 沙箱的作用。系统使用容器隔离运行环境，防止智能体读取密钥或执行危险指令。目前，智能体依然只是单用户、单目标的异步任务执行器。若要将虚拟助手升级为真正的协作者，系统仍需实现多项技术跨越。这包括持久化上下文、细粒度权限控制以及令牌预算管理。

结语：管理习惯的跨越比挑选工具更重要

控制端功能的趋同，是底层模型同质化的必然产物。虽然各工具合流的终态仍无定论，但管理习惯的升级更为紧迫。我们应当反思使用智能体的方式，尝试从实时聊天转向长周期任务。开发者需要从编写代码的驾驶员，升级为合格的项目管理者。这种认知上的升级，往往发生在发布日志撞脸之前。