2026 年 4 月,一个看似荒诞的事实摆在面前:Anthropic 用两周让 Claude 能直接打开你电脑上的 Word 和 PPT,理解结构,自主修改,交付结果。而 Google 有 Gemini 三年了,Microsoft 有 Copilot 三年了,你在 Google Slides 和 PowerPoint 里面对的仍然是一个"你问一句它答一句"的侧边栏聊天框。
这不是一个"谁更厉害"的问题。如果你仔细看 Claude Cowork 到底是怎么"改 PPT"的,你会发现它和 Gemini/Copilot 做的根本不是同一件事。
"两周"的真相
Claude Cowork 不是 Anthropic 从零发明的文档编辑器。它是 Claude Code 的自然延伸。
Claude Code 是一个面向开发者的 agentic coding 工具——它能读文件、写文件、跑 shell 命令、多步规划、出错后自动修正。这套能力已经打磨了很久。Cowork 做的事情,本质上是把这些已有的能力指向了 .pptx 和 .docx 文件:在隔离的虚拟机里跑 Python 代码,调用 python-pptx 和 python-docx 库操作 OOXML 结构,然后把结果写回你授权的本地文件夹。
Anthropic 自己也是这么说的。官方帮助中心写得很直白:"Cowork uses the same agentic architecture that powers Claude Code"。Wired 采访了 Claude Code 的负责人 Boris Cherny,他的描述更直白:"We tried a bunch of different ideas to see what form factor would make sense for a less technical audience that doesn't want to use a terminal."
所以"两周"不是 Anthropic 的工程奇迹。这就像你已经有了一辆好车,装个拖钩只需要两天;但你不能反过来说"造拖钩只要两天,为什么别人造不出整车"。Claude Code 已经提供了完整的 agent 基座——规划、执行、工具调用、错误恢复——Cowork 只是接了一个新的文件类型。
而且,Claude Code 编辑 PPT 的体验远没有听起来那么完美。它甚至不能"看到"自己生成的 slide 长什么样——它的 Read 工具不支持图片文件,截了图也看不了。这意味着 Claude 改 PPT 基本是在"盲改":它操作 OOXML 的 XML 结构,但不知道渲染出来是否正确。开发者 Leon Furze 提出了一个更激进的做法:让 Claude Code 直接解压 .pptx(本质是个 zip 包),编辑底层 XML,然后用 headless Chrome 截图来验证效果。这比 Anthropic 官方的路径更灵活,但也更 hacky。
两种"改文档",两个世界
理解了这个前提,就能看到真正的分歧点。
Claude Cowork 编辑的是你电脑上的本地文件副本。你给它一个文件夹,它在自己的虚拟机里改,改完写回文件。这个过程中:没有其他人在同时编辑,没有审计日志,没有合规要求。搞坏了你自己负责——Anthropic 官方明确写了"do not use for regulated workloads",并且说明 Cowork 的操作历史不会进入标准的审计体系。
Gemini 和 Copilot 面对的完全是另一个世界。你在 Google Slides 里打开的那个 deck,是组织的正式文档——可能是 board presentation,可能是客户 proposal,可能是 SEC filing 的附件。AI 编辑这些文档时,必须处理一套 Claude Cowork 完全不需要考虑的约束:协作冲突(三个人同时在改同一个 deck 怎么办)、变更追溯(谁改了什么、什么时候改的)、权限控制(AI 能改哪些 slide、不能改哪些)、合规审计(修改是否符合品牌规范和法律要求)、回滚能力(改错了能不能恢复)。
这不是"能不能做"的问题。Google Slides 有完整的写入 API(batchUpdate),也有渲染 API(getThumbnail)。Gemini 在 Slides 里已经能直接编辑当前 slide——预览后替换或插入。Microsoft 也有 "Edit with Copilot (Frontier)",支持添加、更新、重新组织 slide,跨 Windows、Mac 和 Web。它们都在做 agentic editing,只是先放在了更小的风险池里(Frontier、gated preview)。
真正的区别在于操作循环的设计。Anthropic 的循环是:读文件 → 生成代码 → 执行 → 写文件 → 完成。Google/Microsoft 的循环是:读文档 → 生成建议 → 预览 → 用户确认 → 应用 → 审计。前者是 agent 模式——AI 自主决策并执行。后者是 assistant 模式——AI 建议,人类拍板。
这两个循环的差异,不是能力问题,而是产品定位问题。Claude Code 是开发者工具,它的用户有 git、有备份、有"搞坏了大不了重来"的心态。Google Slides 是企业工具,它的用户没有 git,deck 搞坏了就是真的搞坏了。
这就像问"为什么 SQL 的 DELETE 不加 WHERE 能删全表,而银行的转账 API 要三层审批?"不是银行的技术做不到无审批转账,而是银行的产品定位要求不同的安全模型。
那 Docs 和 Sheets 呢?
一个更尖锐的问题:就算 Slides 有视觉验证的困难,那 Google Docs 呢?Docs 是纯文本,Claude 改 Word 改得很流畅,为什么 Gemini 在 Google Docs 里也还是 chat 模式?
答案藏在产品架构的历史选择里。
2023 年,Google 和 Microsoft 同时面临一个问题:怎么把 AI 集成到办公产品里?它们不约而同地选择了同一个答案——chat sidebar。一个通用的 Gemini/Copilot 组件,适配 Docs、Sheets、Slides、Drive、Gmail。从工程角度看这完全合理:复用最大化,定制最小化,一个团队就能覆盖所有产品线。
但这个选择创造了路径依赖。Chat sidebar 的整个技术栈——输入框、对话历史、markdown 渲染、复制粘贴按钮——都是为"一问一答"设计的。要把它变成 agent,需要重新设计交互模型(怎么展示 AI 正在做什么?)、状态管理(AI 操作到一半失败了怎么办?)、错误处理(怎么回滚?)、和现有功能的兼容性(和评论、修订历史、协作编辑怎么共存?)。这不是加个按钮的事,是需要推翻重来。
Claude Code 没有这个包袱。它从第一天起就是为 agent 设计的——完整的工具链、规划能力、多步执行循环。Cowork 继承了这个架构,所以它天然就是 agentic 的。这不是 Anthropic 更聪明,而是它没有历史债务。
不过 Google 并不是没有在追赶。Google Sheets 已经在做更 agentic 的编辑了——官方描述是"Build or edit entire spreadsheets with Gemini in Sheets",支持对已有 spreadsheet 的端到端操作。为什么 Sheets 先于 Docs 和 Slides?因为 Sheets 是结构化数据——AI 可以用代码判断自己的修改是否正确(公式算对了没有、数据格式对不对)。Docs 和 Slides 是非结构化内容——"这段话写得好不好"、"这个 layout 看起来对不对",这类判断远比验证一个公式要难。
两种模式各有取舍
Anthropic 的做法更快、更激进,但也更脆弱。没有审计日志、没有合规保证、不能处理协作冲突、甚至不能看到自己改出来的效果。它适合个人知识工作者处理自己的文件,但距离企业级产品还有很长的路。
Google 和 Microsoft 的做法更慢、更保守,但每一层都有安全网。预览确认、权限控制、审计日志、协作兼容。这些安全网让产品"无聊",但让企业的法务和 IT 部门能睡得着觉。
未来大概率会收敛。Google/Microsoft 会逐步放开 agentic 能力——它们已经在通过 Frontier 和 gated preview 做了。Anthropic 会逐步加强企业保证——它的 Office 插件已经支持 tracked changes 和原生 undo,说明它也在往那个方向走。
但在这个收敛完成之前,有一个窗口期。Claude Code 证明了 agentic 文档编辑的技术路径是可行的(即使目前还很粗糙),而 Google/Microsoft 的企业约束让它们不可能很快做到同样的程度。这个窗口期里,能做出"既能 agentic 地改文件、又有足够安全网"的工具的人,会填补一个真实的市场空白。
不是大厂的失败,也不是创业公司的胜利。这是两种产品哲学在同一个问题上的碰撞。而最终用户不需要选边站——他们需要的只是一个趁手的工具。
Comments