中文互联网上对于各种 AI 编码工具 (Coding Assistant) 的技术焦虑,表现得像潮汐一样,一波接一波。
一会儿,社交平台和公众号刷屏狂吹 Claude Code,仿佛只要不把终端切换过去,你的开发效率就会落后于时代;一会儿,独立开发者圈子里又狂推 Codex;而隔一段时间,大家又会因为 Cursor 收费或者额度紧缩而产生集体焦虑,抱怨工具不给力了。
实际上,这种追赶风口的焦虑,大可不必。
对于 95% 以上的日常普通的增删改查开发任务,各大 AI 编码 Harness 在底层智能与辅助功能上已经高度重合收敛。在今天的日常项目下,它们完全是 interchangeable(可互换的)。
然而,Google 的 Antigravity 却成为了唯一的例外。它在模型接口稳定性和软件工程成熟度两个维度上,都出现了严重的掉队。
当我们静下心来做横向对比时,会发现主流 AI 编码工具的发展正处于一个全面饱和的平台期。
在极少数超长上下文、超复杂架构重构的顶尖工程中,各家模型在推理深度上确实存在微小差异。但对于日常绝大多数的日常编码任务来说,模型的能力已经严重溢出。
甚至在实际开发中,开发者出于速度和价格的考虑,经常会故意放弃最顶级的模型(例如 Claude Opus 4.8 或 GPT 5.5),转而选择更便宜、更快速的模型。
在实际体感中,比如基于近期表现不俗的 GLM-5.2 运行日常代码修改,其响应速度非常快,且智能水平完全在够用线之上。虽然偶尔能察觉到它们与顶尖模型在极致长任务里的差距,但在 95% 场景下,它们的表现毫无破绽。底层大模型的同质化,抹平了工具在大脑智能层面的原生代差。
如果我们把各大 AI 编码助理的功能矩阵拉出来,会看到一个高度重合的图景。
下图展示了 2026 年 6 月全球几大主流编码 Harness 的功能矩阵对比:
从矩阵中可以看出,Sub-agent 拆分派发、云端托管工作区、背景定时/延时任务,各家在功能上都已齐备。
在客户端方面,Cursor 拥有官方的移动端 App;而 OpenCode 同样拥有支持 iPadOS/visionOS 和内嵌 SSH 隧道的移动客户端,这并非是官方商业软件,而是由鸭哥开发并完全开源的项目(iOS 版本:opencode_ios_client;Android 版本:opencode_android_client,克隆 Git 仓库的源码即可部署)。这证明在软件功能拼图上,开源生态和三方插件已经迅速填补了官方商业工具筑起的壁垒。
对于延时执行任务(例如起一个 timer 像 reminder 一样在后台回看),Claude Code 通过本地 Desktop Routines 交互式支持;而 OpenCode 更是拥有本地通用的 Process Launcher 进程管理器,支持 SQLite 级别的延迟任务持久化和漏跑任务自动补偿。各大工具在功能版图上已经没有任何本质的代差。
Claude Code 独占的 Agent Teams (通过 13 个 Peer-to-peer 操作 API 进行团队协作) 和 Dynamic Workflows (动态生成 JS 编排脚本处理大规模 sub-agent) 在发布时吸引了大量关注。然而在实际工程环境中,这些机制仍处于早期阶段,并且其实际体验被以下几处问题严重折损:
这几项工程痛点,直接抵消了上述高阶功能的优势,使 Claude Code 的日常综合表现回落到与 Cursor、Codex、OpenCode 相同的水平线。
这得出了一个显而易见的结论:在日常开发中,各大 AI 编码 Harness 具有极高的可互换性(interchangeable)。如果开发者一时间无法感知到它们之间的差别,选择哪一款都不会影响工作效率;而一旦开发任务复杂到能显式暴露各家底座性能的微细鸿沟时,开发者自然会建立明确的偏好,也就不再需要四处搜寻对比指南了。
既然主流工具都相差无几,为什么我们却唯独把 Google 的 Antigravity 排除在外?
因为它在智能 API 稳定性与软件成熟度两个维度上,都出现了严重的掉队。
底层的 Gemini 3.5 Flash 模型响应迅速,虽然偶尔会出现逻辑瑕疵,但基本能与 GLM 划在同一档次。然而真正影响开发流程的,是 Gemini API 本身的内生计算机制。
在开发中,如果我们使用非官方的编码 Harness(比如通过 LiteLLM 或 OpenCode 接入 Gemini API)来执行长输出任务,常常会遇到模型输出到一半就突然异常中断的现象。
通过技术调试,我们发现了藏在背后的 API 逻辑缺陷:
Gemini 3.0+ 引入了内生思考预算 (Thinking Budget)
机制。在处理复杂编码逻辑时,如果开启了 adaptive thinking
(自适应思考模式),模型内部的思考链 (Reasoning Trace)
同样会消耗并扣减 API 允许输出的最大字符数
(max_output_tokens)。
这就引发了机制上的冲突:即便将最大输出长度设得很宽,当 Gemini API
面对复杂编码任务时,其内生思考机制会生成极长的推理轨迹,在尚未输出实质代码前便将
max_output_tokens
消耗殆尽。这最终导致正文在生成中途因为触发 length
限制而被截断。同时,由于这种自适应思考通常缺少及时的流式返回,使得网络连接容易被客户端判定为超时并强制挂断。
虽然在官方原生的 antigravity 客户端里,Google 团队做了一些针对性的改进,稳定度有所回升,但底层 API 的固有机制依然让开发面临着代码中断的隐患。
除了接口设计外,antigravity 的软件成熟度同样存在明显的工程局限。
下图展示了 Google Antigravity 割裂的产品架构:
Google 将其分割成了 5 个独立的组件(Antigravity 2.0 桌面端、Antigravity IDE 编辑器、Antigravity CLI 终端、SDK、云 API),并在 6 月 18 日暴力下线了 Gemini CLI 强迫用户重新配置迁移。这种大厂赛马冗余的产品设计,制造了不必要的认知混乱。
剥离了被过度营销的噱头后,最真实的结论是:除去掉队的 Antigravity,Cursor、Codex、Claude Code 和 OpenCode 四家在日常开发任务中并没有拉开体验代差。在同质化收敛的趋势下,它们早已到了可以无缝无感切换的互换时代。
因此,如今选择哪款工具,并不是要在智能层面分出高下,而是取决于个人对以下工作流特征的侧重:
而在大模型能力迅速弥合的浪潮下,Google 的 Antigravity 彻底掉队了。它在智能 API 层面由于内生 Thinking Token 的冲突截断导致长代码随时腰斩,在软件工程上陷入了死锁卡死与五组件命名分裂的境地。在消除了“Google 制造”的光环后,它在这一波切换无感的可互换大潮中,已经丧失了与主流并列对比的资格。