AI 编程AI Agent

这七个月,用 AI 写代码的方式变了

你打开 Claude Code,敲一段指令。它自己去读文件、写代码、跑测试,中间不问你。你瞄一眼结果,发下一条指令,它继续跑。整个过程里你大概只做了两成执行决策,剩下八成它自己定了。

这不是感觉。Anthropic 从 40 万次真实会话里量出了这个数字(报告PDF)。

从修 bug 到跑完一件事

七个月里,修 bug 的会话从 33% 掉到了 19%,砍了将近一半。

腾出来的份额流向了运维和写作,各自翻了一倍。运维从 14% 涨到 21%,写作和数据分析从约 10% 涨到 20% 左右。

整体来看,约 56% 的会话在直接写代码,17% 做运维,14% 规划和探索系统,13% 做分析和写作。超过四成的会话不以写代码为核心目的。

debug 没有消失,只是不再单独占一次会话了。它嵌进了更大的工作流里。写一段代码,顺手把测试写了、部署配置改了、变更日志也更了。debug 散落在这些动作里,变成了一步而不是全部。

从修 bug 到交付整件事

你打开 AI 不再是为了修一个 bug,而是为了跑完一件事。给一条指令,它自己找到文件、改完逻辑、跑通测试、写好变更日志然后上线。你从操作者变成了把关人。

同一段时间,这些任务的总价值涨了 27%。构建新功能涨了 43%,运维涨了 34%,修复涨了 32%。每一类都在涨,没有哪一类被摊薄。过去一次会话修一个函数,现在一次会话读完整模块、改完逻辑、跑通测试然后部署。交给 AI 的工作块在变大。

交给 AI 的工作块在涨价

省掉的不在键盘上。以前觉得 AI 省掉的是打字时间,实际上省掉的是整段流转:来回确认、上下文切换、从编辑到测试再到部署。省掉的东西在流程里,不在敲击里。

谁在用

用 AI 写代码的人也在变。大约 70% 的会话能推断出职业,增长最快的是管理、销售和法律。

律师用它查合同缺失条款,销售总监用它调数据看板的后端 SQL,产品经理用它改 CI 配置文件。他们不写代码为生,但用 AI 写代码解决自己领域的问题。

软件相关从业者的验证成功率是 34%,其他职业是 29%,最大差距在七个百分点以内。编程背景能拉开一些距离,但拉不开本质差距。

编程的门槛从会不会写代码,移到了能不能说清要解决的问题。你比 AI 更懂你的领域。律师知道合同少哪些条款,会计知道对账规则。把你知道的讲清楚,AI 就能跑对。

把要的说清楚

知道要什么是一回事,让 AI 执行对是另一回事。这段距离,数据量得出来。

你发一条指令,AI 一口气跑 12 步、产出 3200 词。另一个人发一条指令,AI 只跑 5 步、产出 600 词。同一把工具,差了五倍。差距不在指令写得多长,在于你知不知道自己要什么。知道要什么,AI 不用来回确认,一口气推到底。不知道要什么,AI 就得反复猜,猜错一次就是一次无用来回。

一次典型会话里,人承担约 70% 的规划决策:做什么、走哪条路、什么算完成。agent 承担约 80% 的执行决策。出题人和解题人的分工已经形成了。

这里的判断精度不看简历,看你在当前问题上的理解有多深。一个资深工程师头一次问 Rust 问题,在那个会话里就是新手。一个从没写过 Python 的会计,把对账规则和边缘情况讲明白了,在那个会话里就是专家。跟你的职衔没关系,跟你对眼前这件事的理解深度有关系。

这份报告除了告诉你行业在往哪走,还标出了几条明确的练习方向。

怎么练。先盯一件事:每次下指令前,想清楚跑完之后你拿什么判断它做对了。把验收标准补上去。这是最容易漏的,也是回报最高的。验收标准定了,agent 自己就能判断中间结果对不对,不用每一步都等你确认。练熟了再补约束条件,不追求第一次就列全。跑过一次之后 agent 会踩到边界,你再把它加回去。这件事和编程经验是两条线,不需要先成为十年老兵再练。

数据在这里有一个清晰的拐点。新手级会话约 15% 验证成功,中级及以上 28% 到 33%。从 15% 到 28% 是一次大跳,从不会到会这一步收益最大。28% 到 33% 是缓坡,再往上多拿的不多了。

从新手到中级是大跳,再往上基本走平

走偏的时候

平路上看不出差距。新手和中级以上的成功率,在顺利的时候差不太多。但困难会话里,新手达到验证成功的只有 4%,专家 15%,差了将近四倍。

放弃率讲的是同一件事的反面。新手有 19% 以放弃告终,一行代码都不写了,其他用户只有 5% 到 7%。顺风顺水的时候专家和新手的成功率接近,但卡住以后专家的成功率是新手的将近四倍。差距不在顺的时候,在卡住的时候。专家赢在解套,不赢在量产。

解套这件事可以练。

怎么练。卡住的时候别问为什么不行,问从哪一步开始不对劲。回到对话记录,找到偏差第一次出现的位置。在那一步重新写一条修正指令,不删整个会话重来,只从那个节点继续。已经跑过的正确步骤保留,只修正出错的环节。推倒重来的代价比想象的大:agent 沿着已有的对话逻辑往下走,上下文已经对齐了,你删掉重来等于把这些对齐一起丢掉。

拿平时卡壳的会话专门练这个。翻到开头,顺着一句一句找偏差。找到了,写一条修正指令,从那里继续。练十次偏差定位,比跑一百次顺利的会话更有用。

一口气跑完

前面说过,修 bug 的会话砍了近一半,运维和写作翻了一倍。人们正在从单次修 bug 走向让 AI 从头到尾跑完一件事。单条指令不够用了。你得会把一件事拆成几步,每步做完检查一下,再往下走。

怎么练。先把任务拆成三到五步,每步有独立的产出和验证方式。每步做完停下来看一眼,通过了再继续。跑熟了以后,把检查点变成规则让 AI 自己验,通过了自动往下走。编排就从手动过渡到了半自动。

用户把执行决策抓在自己手里时,Claude 每轮大约做 8 个操作。让 agent 也接手下一步做什么的判断,每轮操作跳到约 16 个。放手让 agent 做更多规划是可行的,前提是它在前端吃透了你到底要什么。上游的精度决定下游的放权边界。

会写 prompt 的人多,会设计多步流程的人少。这不算什么新技能,但它是被跳过得最厉害的一环。

这份数据来自 Anthropic 对 40 万次 Claude Code 会话的分析,涵盖约 23.5 万用户,时间跨度 2025 年 10 月到 2026 年 4 月,全部来自交互式会话,不含自动化管道调用。一次会话平均约 4 个轮次,产出约 2400 词。编排这件事不是报告直接测量的变量,是从用法迁移里推出的工程推论。够用指会话内可观测的成功信号:git commit 是否通过 CI、测试是否跑绿、用户是否确认,不含长期维护成本或业务效果。七个月是方向性的早期信号,期间模型版本在迭代、产品形态在变化、用户熟练度在上升,这些变化是多种力量共同作用的结果。

说清楚、拉回来、串起来。追这几个方向,够练一阵子了。

鸭哥每日手记

日更的深度AI新闻和分析