Claude 两周改 Word，Google 三年改不了 Slides——问题到底出在哪

2026 年 4 月，一个看似荒诞的事实摆在面前：Anthropic 用两周让 Claude 能直接打开你电脑上的 Word 和 PPT，理解结构，自主修改，交付结果。而 Google 有 Gemini 三年了，Microsoft 有 Copilot 三年了，你在 Google Slides 和 PowerPoint 里面对的仍然是一个"你问一句它答一句"的侧边栏聊天框。

这不是一个"谁更厉害"的问题。如果你仔细看 Claude Cowork 到底是怎么"改 PPT"的，你会发现它和 Gemini/Copilot 做的根本不是同一件事。

"两周"的真相

Claude Cowork 不是 Anthropic 从零发明的文档编辑器。它是 Claude Code 的自然延伸。

Claude Code 是一个面向开发者的 agentic coding 工具——它能读文件、写文件、跑 shell 命令、多步规划、出错后自动修正。这套能力已经打磨了很久。Cowork 做的事情，本质上是把这些已有的能力指向了 .pptx 和 .docx 文件：在隔离的虚拟机里跑 Python 代码，调用 python-pptx 和 python-docx 库操作 OOXML 结构，然后把结果写回你授权的本地文件夹。

Anthropic 自己也是这么说的。官方帮助中心写得很直白："Cowork uses the same agentic architecture that powers Claude Code"。Wired 采访了 Claude Code 的负责人 Boris Cherny，他的描述更直白："We tried a bunch of different ideas to see what form factor would make sense for a less technical audience that doesn't want to use a terminal."

所以"两周"不是 Anthropic 的工程奇迹。这就像你已经有了一辆好车，装个拖钩只需要两天；但你不能反过来说"造拖钩只要两天，为什么别人造不出整车"。Claude Code 已经提供了完整的 agent 基座——规划、执行、工具调用、错误恢复——Cowork 只是接了一个新的文件类型。

而且，Claude Code 编辑 PPT 的体验远没有听起来那么完美。它甚至不能"看到"自己生成的 slide 长什么样——它的 Read 工具不支持图片文件，截了图也看不了。这意味着 Claude 改 PPT 基本是在"盲改"：它操作 OOXML 的 XML 结构，但不知道渲染出来是否正确。开发者 Leon Furze 提出了一个更激进的做法：让 Claude Code 直接解压 .pptx（本质是个 zip 包），编辑底层 XML，然后用 headless Chrome 截图来验证效果。这比 Anthropic 官方的路径更灵活，但也更 hacky。

两种"改文档"，两个世界

理解了这个前提，就能看到真正的分歧点。

Claude Cowork 编辑的是你电脑上的本地文件副本。你给它一个文件夹，它在自己的虚拟机里改，改完写回文件。这个过程中：没有其他人在同时编辑，没有审计日志，没有合规要求。搞坏了你自己负责——Anthropic 官方明确写了"do not use for regulated workloads"，并且说明 Cowork 的操作历史不会进入标准的审计体系。

Gemini 和 Copilot 面对的完全是另一个世界。你在 Google Slides 里打开的那个 deck，是组织的正式文档——可能是 board presentation，可能是客户 proposal，可能是 SEC filing 的附件。AI 编辑这些文档时，必须处理一套 Claude Cowork 完全不需要考虑的约束：协作冲突（三个人同时在改同一个 deck 怎么办）、变更追溯（谁改了什么、什么时候改的）、权限控制（AI 能改哪些 slide、不能改哪些）、合规审计（修改是否符合品牌规范和法律要求）、回滚能力（改错了能不能恢复）。

这不是"能不能做"的问题。Google Slides 有完整的写入 API（batchUpdate），也有渲染 API（getThumbnail）。Gemini 在 Slides 里已经能直接编辑当前 slide——预览后替换或插入。Microsoft 也有 "Edit with Copilot (Frontier)"，支持添加、更新、重新组织 slide，跨 Windows、Mac 和 Web。它们都在做 agentic editing，只是先放在了更小的风险池里（Frontier、gated preview）。

真正的区别在于操作循环的设计。Anthropic 的循环是：读文件 → 生成代码 → 执行 → 写文件 → 完成。Google/Microsoft 的循环是：读文档 → 生成建议 → 预览 → 用户确认 → 应用 → 审计。前者是 agent 模式——AI 自主决策并执行。后者是 assistant 模式——AI 建议，人类拍板。

这两个循环的差异，不是能力问题，而是产品定位问题。Claude Code 是开发者工具，它的用户有 git、有备份、有"搞坏了大不了重来"的心态。Google Slides 是企业工具，它的用户没有 git，deck 搞坏了就是真的搞坏了。

这就像问"为什么 SQL 的 DELETE 不加 WHERE 能删全表，而银行的转账 API 要三层审批？"不是银行的技术做不到无审批转账，而是银行的产品定位要求不同的安全模型。

那 Docs 和 Sheets 呢？

一个更尖锐的问题：就算 Slides 有视觉验证的困难，那 Google Docs 呢？Docs 是纯文本，Claude 改 Word 改得很流畅，为什么 Gemini 在 Google Docs 里也还是 chat 模式？

答案藏在产品架构的历史选择里。

2023 年，Google 和 Microsoft 同时面临一个问题：怎么把 AI 集成到办公产品里？它们不约而同地选择了同一个答案——chat sidebar。一个通用的 Gemini/Copilot 组件，适配 Docs、Sheets、Slides、Drive、Gmail。从工程角度看这完全合理：复用最大化，定制最小化，一个团队就能覆盖所有产品线。

但这个选择创造了路径依赖。Chat sidebar 的整个技术栈——输入框、对话历史、markdown 渲染、复制粘贴按钮——都是为"一问一答"设计的。要把它变成 agent，需要重新设计交互模型（怎么展示 AI 正在做什么？）、状态管理（AI 操作到一半失败了怎么办？）、错误处理（怎么回滚？）、和现有功能的兼容性（和评论、修订历史、协作编辑怎么共存？）。这不是加个按钮的事，是需要推翻重来。

Claude Code 没有这个包袱。它从第一天起就是为 agent 设计的——完整的工具链、规划能力、多步执行循环。Cowork 继承了这个架构，所以它天然就是 agentic 的。这不是 Anthropic 更聪明，而是它没有历史债务。

不过 Google 并不是没有在追赶。Google Sheets 已经在做更 agentic 的编辑了——官方描述是"Build or edit entire spreadsheets with Gemini in Sheets"，支持对已有 spreadsheet 的端到端操作。为什么 Sheets 先于 Docs 和 Slides？因为 Sheets 是结构化数据——AI 可以用代码判断自己的修改是否正确（公式算对了没有、数据格式对不对）。Docs 和 Slides 是非结构化内容——"这段话写得好不好"、"这个 layout 看起来对不对"，这类判断远比验证一个公式要难。

两种模式各有取舍

Anthropic 的做法更快、更激进，但也更脆弱。没有审计日志、没有合规保证、不能处理协作冲突、甚至不能看到自己改出来的效果。它适合个人知识工作者处理自己的文件，但距离企业级产品还有很长的路。

Google 和 Microsoft 的做法更慢、更保守，但每一层都有安全网。预览确认、权限控制、审计日志、协作兼容。这些安全网让产品"无聊"，但让企业的法务和 IT 部门能睡得着觉。

未来大概率会收敛。Google/Microsoft 会逐步放开 agentic 能力——它们已经在通过 Frontier 和 gated preview 做了。Anthropic 会逐步加强企业保证——它的 Office 插件已经支持 tracked changes 和原生 undo，说明它也在往那个方向走。

但在这个收敛完成之前，有一个窗口期。Claude Code 证明了 agentic 文档编辑的技术路径是可行的（即使目前还很粗糙），而 Google/Microsoft 的企业约束让它们不可能很快做到同样的程度。这个窗口期里，能做出"既能 agentic 地改文件、又有足够安全网"的工具的人，会填补一个真实的市场空白。

不是大厂的失败，也不是创业公司的胜利。这是两种产品哲学在同一个问题上的碰撞。而最终用户不需要选边站——他们需要的只是一个趁手的工具。

Computing Life