AI 编程AI Agent

这七个月，用 AI 写代码的方式变了

发布于 2026 年 6 月 18 日

你打开 Claude Code，敲一段指令。它自己去读文件、写代码、跑测试，中间不问你。你瞄一眼结果，发下一条指令，它继续跑。整个过程里你大概只做了两成执行决策，剩下八成它自己定了。

这不是感觉。Anthropic 从 40 万次真实会话里量出了这个数字（报告、PDF）。

从修 bug 到跑完一件事

七个月里，修 bug 的会话从 33% 掉到了 19%，砍了将近一半。

腾出来的份额流向了运维和写作，各自翻了一倍。运维从 14% 涨到 21%，写作和数据分析从约 10% 涨到 20% 左右。

整体来看，约 56% 的会话在直接写代码，17% 做运维，14% 规划和探索系统，13% 做分析和写作。超过四成的会话不以写代码为核心目的。

debug 没有消失，只是不再单独占一次会话了。它嵌进了更大的工作流里。写一段代码，顺手把测试写了、部署配置改了、变更日志也更了。debug 散落在这些动作里，变成了一步而不是全部。

你打开 AI 不再是为了修一个 bug，而是为了跑完一件事。给一条指令，它自己找到文件、改完逻辑、跑通测试、写好变更日志然后上线。你从操作者变成了把关人。

同一段时间，这些任务的总价值涨了 27%。构建新功能涨了 43%，运维涨了 34%，修复涨了 32%。每一类都在涨，没有哪一类被摊薄。过去一次会话修一个函数，现在一次会话读完整模块、改完逻辑、跑通测试然后部署。交给 AI 的工作块在变大。

省掉的不在键盘上。以前觉得 AI 省掉的是打字时间，实际上省掉的是整段流转：来回确认、上下文切换、从编辑到测试再到部署。省掉的东西在流程里，不在敲击里。

谁在用

用 AI 写代码的人也在变。大约 70% 的会话能推断出职业，增长最快的是管理、销售和法律。

律师用它查合同缺失条款，销售总监用它调数据看板的后端 SQL，产品经理用它改 CI 配置文件。他们不写代码为生，但用 AI 写代码解决自己领域的问题。

软件相关从业者的验证成功率是 34%，其他职业是 29%，最大差距在七个百分点以内。编程背景能拉开一些距离，但拉不开本质差距。

编程的门槛从会不会写代码，移到了能不能说清要解决的问题。你比 AI 更懂你的领域。律师知道合同少哪些条款，会计知道对账规则。把你知道的讲清楚，AI 就能跑对。

把要的说清楚

知道要什么是一回事，让 AI 执行对是另一回事。这段距离，数据量得出来。

你发一条指令，AI 一口气跑 12 步、产出 3200 词。另一个人发一条指令，AI 只跑 5 步、产出 600 词。同一把工具，差了五倍。差距不在指令写得多长，在于你知不知道自己要什么。知道要什么，AI 不用来回确认，一口气推到底。不知道要什么，AI 就得反复猜，猜错一次就是一次无用来回。

一次典型会话里，人承担约 70% 的规划决策：做什么、走哪条路、什么算完成。agent 承担约 80% 的执行决策。出题人和解题人的分工已经形成了。

这里的判断精度不看简历，看你在当前问题上的理解有多深。一个资深工程师头一次问 Rust 问题，在那个会话里就是新手。一个从没写过 Python 的会计，把对账规则和边缘情况讲明白了，在那个会话里就是专家。跟你的职衔没关系，跟你对眼前这件事的理解深度有关系。

这份报告除了告诉你行业在往哪走，还标出了几条明确的练习方向。

怎么练。先盯一件事：每次下指令前，想清楚跑完之后你拿什么判断它做对了。把验收标准补上去。这是最容易漏的，也是回报最高的。验收标准定了，agent 自己就能判断中间结果对不对，不用每一步都等你确认。练熟了再补约束条件，不追求第一次就列全。跑过一次之后 agent 会踩到边界，你再把它加回去。这件事和编程经验是两条线，不需要先成为十年老兵再练。

数据在这里有一个清晰的拐点。新手级会话约 15% 验证成功，中级及以上 28% 到 33%。从 15% 到 28% 是一次大跳，从不会到会这一步收益最大。28% 到 33% 是缓坡，再往上多拿的不多了。

走偏的时候

平路上看不出差距。新手和中级以上的成功率，在顺利的时候差不太多。但困难会话里，新手达到验证成功的只有 4%，专家 15%，差了将近四倍。

放弃率讲的是同一件事的反面。新手有 19% 以放弃告终，一行代码都不写了，其他用户只有 5% 到 7%。顺风顺水的时候专家和新手的成功率接近，但卡住以后专家的成功率是新手的将近四倍。差距不在顺的时候，在卡住的时候。专家赢在解套，不赢在量产。

解套这件事可以练。

怎么练。卡住的时候别问为什么不行，问从哪一步开始不对劲。回到对话记录，找到偏差第一次出现的位置。在那一步重新写一条修正指令，不删整个会话重来，只从那个节点继续。已经跑过的正确步骤保留，只修正出错的环节。推倒重来的代价比想象的大：agent 沿着已有的对话逻辑往下走，上下文已经对齐了，你删掉重来等于把这些对齐一起丢掉。

拿平时卡壳的会话专门练这个。翻到开头，顺着一句一句找偏差。找到了，写一条修正指令，从那里继续。练十次偏差定位，比跑一百次顺利的会话更有用。

一口气跑完

前面说过，修 bug 的会话砍了近一半，运维和写作翻了一倍。人们正在从单次修 bug 走向让 AI 从头到尾跑完一件事。单条指令不够用了。你得会把一件事拆成几步，每步做完检查一下，再往下走。

怎么练。先把任务拆成三到五步，每步有独立的产出和验证方式。每步做完停下来看一眼，通过了再继续。跑熟了以后，把检查点变成规则让 AI 自己验，通过了自动往下走。编排就从手动过渡到了半自动。

用户把执行决策抓在自己手里时，Claude 每轮大约做 8 个操作。让 agent 也接手下一步做什么的判断，每轮操作跳到约 16 个。放手让 agent 做更多规划是可行的，前提是它在前端吃透了你到底要什么。上游的精度决定下游的放权边界。

会写 prompt 的人多，会设计多步流程的人少。这不算什么新技能，但它是被跳过得最厉害的一环。

这份数据来自 Anthropic 对 40 万次 Claude Code 会话的分析，涵盖约 23.5 万用户，时间跨度 2025 年 10 月到 2026 年 4 月，全部来自交互式会话，不含自动化管道调用。一次会话平均约 4 个轮次，产出约 2400 词。编排这件事不是报告直接测量的变量，是从用法迁移里推出的工程推论。够用指会话内可观测的成功信号：git commit 是否通过 CI、测试是否跑绿、用户是否确认，不含长期维护成本或业务效果。七个月是方向性的早期信号，期间模型版本在迭代、产品形态在变化、用户熟练度在上升，这些变化是多种力量共同作用的结果。

说清楚、拉回来、串起来。追这几个方向，够练一阵子了。

从修 bug 到跑完一件事

谁在用

把要的说清楚

走偏的时候

一口气跑完

鸭哥每日手记