AI 编程AI Agent

像管理实习生一样,管理 AI 编程工具

最近三个月,前沿 AI 编程工具的发布日志表现出了高度的趋同。在日常开发中,各大 AI 编码控制端完全可以互换使用。这种合流并非巧合,它折射出人机协作关系的根本转变。我们不再使用一次性的聊天助手,而是开始雇佣「虚拟实习生」。要理解这一合流,我们需要先看清大模型在开发流程中的定位。

虚拟实习生:大模型的能力与局限

大模型在日常开发中,非常像一位虚拟实习生。它确实能提高开发效率。首先,它的检索速度极快。人类熟悉系统需要数周,它只需一秒。其次,它不知疲倦。它能全天候工作,且运行成本极低。它的响应以秒计算,这远比雇佣人类程序员便宜。

然而,这位下属的局限也很明显。第一,它没有空间感。由于看不见页面,它很难分清按钮或输入框。第二,它容易逻辑跑偏。在长任务中,它极易偏离目标,陷入死循环。第三,它缺乏常识。它无法判断修改是否安全,误操作容易损坏文件。

核心问题在于,大模型无法独立进行可靠的自我验证。这些局限使得它无法直接交付成品。为了让虚拟下属安全工作,开发者必须制定明确的规范。这套规范,正是各大主流工具正在合流补充的功能拼图。

协作规范:用控制端功能解决模型局限

为了解决上述局限,前沿工具在控制面上给出了高度趋同的解决方案:

这些高度趋同的特性,本质上是针对虚拟实习生的管理手段。

1. 质量检验:没有本地验证,自运行循环只是空谈

虚拟下属最明显的短板,在于无法自我验证。它们写完代码往往直接交工,不知道写得到底对不对。一旦让其盲目运行,智能体很容易陷入死循环或逻辑跑偏。

要解决这个差距,智能体不可能凭空工作。这正是我们在《Loop Engineering》中讨论的核心前提。为了实现自收敛,开发者需要在本地搭建起一套完整的验证底座:

但即便有了这套验证底座,我们依然无法实现完全的无人值守。这主要是因为大模型自身存在着行为上的局限。

在跑长任务时,即便是 Opus 4.8 这样的顶级模型也会偷懒。遇到多次编译报错后,它倾向于寻找借口终止任务,比如回答”现在时间不早了,我们今天先到这里吧”。Codex 的 agent loop 在 harness 里强制 done when routine,就是为了抵消这种提前收工的倾向。

因此,我们需要在控制端上引入监工功能。这就是各大控制端争夺的自运行循环功能。

这并非什么魔法,而是用来弥补模型局限的工程辅助手段。系统通过程序识别偷懒行为,强制将其拉回轨道,直至达成标准。

在具体的工程设计上,这种自运行监工机制、定时轮询与定时任务的差异如下表:

维度 目标驱动自运行循环 会话级定时轮询 持久定时任务
退出条件 状态驱动,包含目标达成检查 无退出条件检查,固定重复 无退出条件检查,固定重复
触发方式 核心逻辑或模型状态驱动 固定时间间隔触发 固定时间计划触发
生命周期 运行至目标达成或用户终止 随当前终端会话关闭而失效 跨重启持久存活,有漏跑补跑
代表实现 Claude Code 的 /goal 命令 Claude Code CLI 的 /loop Antigravity 的 /schedule 指令
三层自治机制在退出条件、触发方式与生命周期上的对比

目前,仅有少数工具拥有真正的目标驱动自运行循环。Claude Code 的 /goal 特性允许智能体自主进行多轮修改。在 OpenAI 的测试中,智能体连续运行了二十五小时,生成了三万行代码。而 Cursor 的 /loop 技能则混合了定时调度,目前在跟进这个方向。

2. 对账白板:解决空间盲区的视觉对齐

在人机协作中,视觉与空间意图很难用纯文本来描述。开发者很难用聊天文字讲清某个按钮的偏移或排布。因此,双方需要一个共享的视觉画布来消除沟通摩擦。这不仅是为了让管理者能直观验收智能体的成果,也是为了满足团队协作中设计与代码双向同步的需要。

这种对账白板的普及,反映了研发领域正在发生的系统性收敛。

一个明显的例证是 Figma 与编码工具在两端的对向合流:Figma 作为设计工具,推出了代码图层与 MCP 服务;而 Cursor 作为编码工具,则反向推出了共享画布。

设计工具在向下渗透,开发工具在向上延伸。双方最终在视觉对账这块白板上达成了共识。这打破了传统的代码生成流程,使开发与设计的边界彻底融合。

3. 任务派发器:异步托管下的移动终端

传统的桌面端编程,是一种必须即时反馈的强同步工作。但在管理虚拟下属的异步长任务模式下,情况变了。智能体执行长跑任务往往需要数十分钟甚至数小时。如果开发者必须端坐在屏幕前盯着日志,脑力消耗极大。

因此,人机协作必须走向异步,手机成为解耦的关键。移动端不写代码,它承担长程任务的异步控制。

首先,它是实时的状态监控工具。由于智能体存在跑偏风险且消耗令牌,管理者需要通过手机随时掌握进度,防止成本失控。

其次,它是轻量级的交互决策门。当智能体在后台遇到安全确认或关键决策时,会向手机推送并进行安全拦截。

管理者在手机上点击即可完成授权或终止操作。开发工作因此脱离桌面,成为异步的长程托管。

不过,这批功能指向两个相反方向。自运行循环和共享画布推智能体走向异步组织化。智能体长时间自主运行,产出供团队共享。iOS app 和 Design Mode 反过来推智能体走向个人贴身化。用户用手机随时监控,在界面上直接标注。两个方向同时出现在一次发布里。这说明 Cursor 同时押注两条路,还没收敛到终态。

控制端功能的两向分化:放权自治与实时监督

环境隔离:防范下属误操作带来破坏

人类开发者具备基本的风险常识,而虚拟下属需要系统设置安全防线。为了防止下属误改关键文件,控制端必须构建隔离的运行环境。这就是 Claude Code 防御体系与 OpenHands 沙箱的作用。系统使用容器隔离运行环境,防止智能体读取密钥或执行危险指令。目前,智能体依然只是单用户、单目标的异步任务执行器。若要将虚拟助手升级为真正的协作者,系统仍需实现多项技术跨越。这包括持久化上下文、细粒度权限控制以及令牌预算管理。

结语:管理习惯的跨越比挑选工具更重要

控制端功能的趋同,是底层模型同质化的必然产物。虽然各工具合流的终态仍无定论,但管理习惯的升级更为紧迫。我们应当反思使用智能体的方式,尝试从实时聊天转向长周期任务。开发者需要从编写代码的驾驶员,升级为合格的项目管理者。这种认知上的升级,往往发生在发布日志撞脸之前。

鸭哥每日手记

日更的深度AI新闻和分析