2026 年 5 月,终端 coding agent 赛道又多了一个玩家。xAI 先后在 5 月 25 日推出 Grok Build CLI(早期 beta,仅限 SuperGrok 和 X Premium+ 订阅者),5 月 28 日开放底层模型 grok-build-0.1 的 API public beta。它宣称自己是“fastest coding model”,专为 agentic 任务训练,支持 8 并行 subagents、plan mode、MCP 及与 Claude Code 零配置兼容,速度达 100+ tokens/second,API 定价 $1/M 输入、$2/M 输出(缓存 $0.20/M)。
这些特点听起来很有吸引力。但把官方叙事、独立用户反馈和竞品数据摆在一起看,重点其实不在“又快又便宜”,而在 xAI 选择了一条与 Claude Code 不同的路:用并行 breadth 换取速度和规模,同时把验证、判断和长期一致性的成本留给用户。
Claude Code 靠单一深度 agent + 1M 上下文,在 2026 年 3 月拿下 80.8% SWE-Bench Verified(当时终端 agent 最高分)。它擅长需要连贯心智模型的大型重构和跨文件依赖追踪。
Grok Build 0.1 则押注 8 个并行 subagent(各自独立 worktree)+ Arena Mode 自动评分选优 + 三阶段 plan/search/build。官方文档和 changelog 反复强调 subagents 可以并行处理不同部分,MCP、skills、plugins、hooks、AGENTS.md 全部开箱即用,headless(-p)和 ACP 支持脚本/CI 集成。
Morph 的对比文章指出,这种权衡的核心在于上下文窗口的分配。每个 subagent 各自持有独立的小窗口,而不是共享一个大上下文。对于需要整体理解大型代码库的任务,这容易导致“concurrency without taste”或“non-deterministic churn”(vanja.io 的评价)。BuildFastWithAI 的观察也类似,并行对 >50k LOC 的迁移和测试回填有用,对小任务则是 overkill,会增加 coordination noise。
这种选择不是技术细节,而是定位问题。xAI 把 Grok Build 放在“parallel-heavy migrations and high-volume API workloads”这个生态位,而把深度工程留给别人。
最刺眼的是公开 benchmark 的完全空白。官方公告、模型页、CLI 文档里都没有 SWE-Bench Verified 或 Pro 的数字。OpenRouter 标注模型 2026 年 5 月 20 日发布,BenchLM 甚至因为 non-generated coverage 不足把它排除在公开排行榜外。Cursor 论坛用户直接吐槽:“Could not find any benchmarks.”
相比之下,Claude Code 80.8% 的数字被反复引用,Morph 明确说“Until xAI publishes comparable evaluations… direct quality comparison relies on anecdotal evidence”。用户实际反馈情况混杂:有人用 plan mode 重构 legacy auth 模块,30 秒内给出 cleaner 的四文件拆分,Jira+git 交叉引用省了团队两小时站会(jingrey.com);Kilo 用它完整构建 webhook 服务,总成本 $1.65,120 tps,自诊断修复环境问题。但同时 Cursor 论坛和 HN 里大量抱怨“tool calls 太多,credits 烧得飞快”“hallucination 严重,像 GPT-4.1”“复杂任务 prompt following 差,容易 endless loops”。
用户(本次调研直接反馈)实测体感:速度和 GPT-5.5 差不多,质量还在观察中。
连做一次深度调研本身,使用 Tavily API 就花了超过 1 美元(多次 advanced search + extract)。高质量的 agentic 工作流从来不是“零成本”的。
CLI 2026 年 5 月 25 日以早期 beta 形式发布,明确仅对 SuperGrok 和 X Premium+ 订阅者开放。API 模型 5 月 28 日转为 public beta。安装只需一条 curl 命令,首次运行走浏览器 OAuth 或 XAI_API_KEY;headless 模式用 -p。
计费上不是免费的。CLI 访问依赖 SuperGrok 订阅(标准版约 $30/月,Heavy 版 $299/月,intro 价 $99 前 6 个月);API 按量 $1/$2。文档和公告都指向 console.x.ai 获取 key 或升级。没有免费 tier 可以跑完整 Grok Build 工作流。
SuperGrok 用户可以免费用吗?不能。订阅门槛很明确,需要付费订阅。
这里有重要区分。
xAI 的 Privacy Policy 明确写:“This Privacy Policy does not apply to data that we process on behalf of customers of our business offerings, such as the xAI API”。Enterprise ToS 进一步规定:除非客户书面同意,否则 xAI 不得将 Inputs 或 Outputs 用于任何内部 AI 训练目的(de-identified data 除外),数据通常 30 天内自动删除(或启用 ZDR)。
Consumer 端(聊天界面)的 Grok 可以 在设置里 opt-out 是否用 User Content 训练模型。
Grok Build CLI 宣称 local-first:源代码和凭证留在本地,只通过 .grokignore 和 snippets 发送必要上下文给模型。但既然底层是 API 调用(或 SuperGrok 订阅下的模型),实际数据处理仍受对应条款约束。官方没有在单一页面把“Build CLI + grok-build-0.1” 的训练政策写得像 API 企业条款那么明确。
简单说:如果你用 API key 走企业路径,训练保护更强;如果你走 SuperGrok 订阅跑 CLI,更多落在 consumer 规则下。可以 opt-out,但不是默认零训练暴露。
很多团队的真实路径是混合使用。Grok Build 目前最现实的角色是“第三选项”。在已有 Claude/Cursor 栈里加一个 breadth 实验臂。前提是接受早期 beta 的粗糙边缘、监控 credits 消耗,并在自家代码库上小范围验证 Arena Mode 的实际效果。
xAI 的迭代速度很快。一个月内同时推 CLI、技能系统和连接器层,还开放 API 给第三方 harness。这节奏说明他们认真在 developer tooling 上投资。但要从“有意思的选项”变成“默认主力”,还缺一样东西。公开、可复现的标准化 benchmark 数据。
目前看来,Grok Build 0.1 更像一次诚实的架构实验:它把并行的优势和代价都摊开了。剩下的,就看开发者愿不愿意为这个 breadth 买单,以及 xAI 接下来会不会把缺失的那块证据补上。
参考
- xAI Grok Build 0.1 API
公告
- Grok Build CLI
介绍
- CLI Getting Started
文档
- Morph
对比分析
- 隐私政策(API
业务数据处理条款)
- 社区反馈:Cursor 论坛、HN、Kilo case study、Jingrey beta review
等(详见 source_index)。
(调研过程中外部工具调用累计花费超过 1 美元,这也是 agentic 调研的真实边际成本之一。)
本文使用 grok-build-0.1 调研写作。