AI 产品与平台AI 编程治理与合规

GPT-5.5、Claude Opus 4.7、DeepSeek V4:什么任务该选哪个模型

2026-04-24 调研。

两个可能让你踩坑的场景

先看两件眼下特别容易踩坑的事。

场景一。你的 agent 流水线大量做长文档理解,比如合同分析、long codebase reasoning、把客户的 8 小时会议转录丢进去生成结构化摘要。一直用 Claude Opus 4.6,因为它在 1M needle-in-haystack 测试上是 91.9%,是所有模型里做长上下文 retrieval 做得最好的。4 月 16 日 Opus 4.7 发布,价格不变,SWE-Bench Pro、AA Intelligence Index 全线领先,你想都没想就把生产环境切过去了。两天后监控告警开始响:在 600K 以上 token 的任务上,输出质量明显下降,经常漏掉文档后半段的关键事实。翻 Anthropic 的 System Card 才看到那行字,Opus 4.7 在 1M needle-in-haystack 上是 59.2%,比 4.6 退了 32 个百分点。Anthropic 主动把 retrieval 容量换成了 agentic 推理能力。如果你的工作流刚好是 RAG,这次升级对你是明确的倒车。长文档 retrieval 这个位置现在反而是 GPT-5.5 做得最好,Graphwalks BFS 1M 从 GPT-5.4 的 9.4% 跳到 45.4%。把 Opus 的旗舰当成长文档处理默认首选,这个直觉在 2026 年春已经不成立。

场景二。OpenAI 把 computer use 当作 GPT-5.5 发布稿里最亮的新能力之一,附带的 OSWorld-Verified 78.7% 这个分数很扎眼,发布稿还单独强调了浏览器交互和文件操作。看起来马上就能接进你的 agent 产品。你决定下周就把 agent 切到 GPT-5.5,让它能操作用户的浏览器完成自动化任务。打开 Responses API 文档一查才发现,里面的 computer-use-preview tool 还是 GPT-5.4 级别的能力,5.5 的那个 78.7% 并没有同步到 API。那 78.7% 在哪里兑现?答案是 macOS 上的 Codex 桌面应用:你要让用户装 Codex、装 plugin、授予 macOS accessibility 权限,欧盟和英国的用户甚至没法用。你以为你在用 GPT-5.5 的新 capability,实际能拿到的只是一个锁在特定 OS、特定应用、特定地区的产品形态。

这两件事都是用过之后才知道的坑。2026 年春这批 frontier 模型发布密集,每家的强项、短板、接入路径、定价断档都不一样,想用好它们需要自己花时间踩坑、对照 system card、翻 release note、跟进社区反馈。这篇文章把这些坑整理出来,省掉你自己走一遍的时间。

四家模型的能力画像

GPT-5.5

发布于 2026-04-23。整体定位是全能型选手:agentic coding、长上下文、reasoning 三个维度同时占第一梯队,但在事实可信度上明显吃亏。Artificial Analysis Intelligence Index 上发布当天 60 分,领先当时并列第二的 57 分(AA 随后回归更新,目前 GPT-5.4、Opus 4.7、Gemini 3.1 Pro 三家在 57 分档并列,GPT-5.5 的 AA v4.0 完整分数还未公开)。最大的单项优势在 agentic coding loop:Terminal-Bench 2.0 上 82.7%,比 Opus 4.7 的 69.4% 高 13 个百分点,是所有 benchmark 里它领先幅度最大的一项。长上下文这次明显稳了,Graphwalks BFS 在 1M scale 上从 5.4 的 9.4% 跳到 45.4%(OpenAI benchmark 表)。纯推理也在第一梯队,FrontierMath Tier 1-3 是 51.7%、Tier 4 是 35.4%。

代价主要在价格。API 单价翻倍到 $5/$30 per 1M tokens,AA 实测单位任务成本相对 GPT-5.4 上升约 20%(per-token 翻倍 × token 用量减少 40%)。事实可信度是它最大的短板,AA-Omniscience 测出的 hallucination rate 是 86%,市场几乎倒数,对比 Opus 4.7 的 36%(AA Omniscience 报告)。OpenAI 自己在 System Card §6.1 里的说法是”individual claims are 23% more likely to be factually correct”相对 GPT-5.4,但这是 OpenAI 选的评测集,和 AA 独立测量指向不同结论(GPT-5.5 System Card)。把 GPT-5.5 派去做事实敏感任务,你要接受它不知道答案时倾向硬答这个毛病。

Claude Opus 4.7

发布于 2026-04-16。和 GPT-5.5 的全能路线不同,Anthropic 这次升级明显做了专科化取舍,把 Opus 推到了资深代码工程师这个位置:真实 GitHub issue 修复、tool use 精准度、事实可信度都是市场第一,同时主动放弃了长文档 RAG 和通用对话温度。SWE-Bench Pro 64.3% 是 GA 模型里市场第一,比 GPT-5.5 的 58.6% 高 5.7 个百分点;MCP-Atlas tool use 77.3% 超过 GPT-5.5 的 75.3%;AA 的 GDPval-AA 拿到 1753 Elo,领先第二名 Sonnet 4.6 的 1674 有 79 个 Elo。最明显的变化在 hallucination:rate 从 Opus 4.6 的 61% 降到 36%。这里要把机制分开看。AA 报告显示 accuracy 没变,attempt rate 从 82% 降到 70%,也就是 12 个百分点的硬答换成了承认不知道(AA Opus 4.7 报告)。4.7 相对 4.6 的改进在于变得更敢拒答,而不是变得更准。

Opus 4.7 为这个定位付出了两个代价。第一是前面场景一提到的 1M 长 context retrieval 从 91.9% 退到 59.2%(Anthropic 自己在 System Card 里披露),主动取舍。第二是创意写作和对话里的温度感。Reddit 在发布当天出现大量 “Opus 4.7 is dogshit” 的帖子,社区反馈说它啰嗦、模板化,原来那股温度没了。boringbot 拿 5 个结构化 PM 任务(PRD、exec summary、RICE、用户研究、GTM)做盲测,Opus 4.7 全部胜出。所以这不算模型退步,是 Anthropic 在主动调整定位。如果你的用户群是文学写作、brainstorm、角色扮演,这次升级对你是负信号;如果是结构化知识工作,正信号。

Gemini 3.1 Pro Preview

2026 年春 Google 的旗舰推理模型。和 Opus 4.7 一样在 AA Intelligence Index 上打到 57 档,性价比是最大优势。AA Cost to Run Index 只要 $892,对比 GPT-5.2 的 $2,304 和 Opus 4.6 的 $2,486,便宜 61%。在几项具体任务上它是明确第一:Video-MMMU 87.6%、ScreenSpot-Pro 72.7%、OmniDocBench 编辑距离 0.115,视频理解、UI 截图操作、PDF 文档抽取这三类多模态任务都是它的主战场。BrowseComp 搜索整合 85.9% 也是第一。

它最大的毛病是社区叫做 parametric hubris 的那个问题:不知道答案时几乎从不拒答,直接自信地编。AA-Omniscience hallucination rate 88%,比 GPT-5.5 的 86% 还略高;但 accuracy 同样第一(55.9%),知道得最多,也编得最多。一个行为层面的信号最能说明问题:Google 自家的 Antigravity IDE 把它当作 Claude 的 fallback,开发者反馈是在长循环里把代码库写崩(Antigravity 负面 Medium),自家产品用脚投票。另一个短板是长循环 agent 不稳,Terminal-Bench 2.0 只有 68.5%,VERTU 实测还有长 session 内存泄漏。Gemini 3.1 Pro 适合短任务、高价值、多模态或搜索密集的场景,不适合 24/7 跑的自治 agent。

DeepSeek V4

2026-04-23 和 GPT-5.5 同日发布。DeepSeek 自己在发布材料里给的定位非常直白,落后 frontier 3 到 6 个月、便宜 9 到 30 倍(Gizmodo 转引)。V4-Pro 定价 $1.74/$3.48 per 1M tokens、V4-Flash 定价 $0.14/$0.28,是 GPT-5.5 的 1/9 和 1/30。开源 MIT license 可自托管。

落后 3-6 个月这个说法是对所有任务取的平均,容易让人忽视实际 benchmark 的分化。短任务、可验证答案的代码题上它是市场第一,LiveCodeBench 93.5 分、Codeforces 3206 Elo,都超过 Opus 4.7、GPT-5.4 和 Gemini 3.1 Pro。中文上也是长期领先,Chinese-SimpleQA 84.4,美国 frontier 模型都在 76 左右,差 8 个百分点。技术报告里还披露了一条不起眼但重要的数据,V4-Pro 在 1M context 上只用 DeepSeek V3.2 27% 的 inference FLOPs 和 10% 的 KV cache(DeepSeek V4 Technical Report)。换句话说,V4 能便宜下来,有相当一部分来自架构层面的效率提升,不是靠烧钱补贴。

真正的短板在长 horizon agentic。Terminal-Bench 2.0 67.9% 对 GPT-5.5 的 82.7%,差 15 个百分点,是所有 benchmark 里它最大的差距。SWE-Bench Pro 55.4% 也落后 Opus 4.7 的 64.3% 近 9 个百分点。视觉能力也没有,V4 preview 是 text-only。

V4 在商业部署里最大的挑战不在 benchmark,在合规。意大利、台湾、澳大利亚、韩国已禁用 DeepSeek 应用,美国 NASA、海军禁止员工使用,韩国 PIPC 公开报告 100 万韩国人数据未授权流向中国(CSIS 分析)。对金融、医疗、法律、政府类应用来说,走 DeepSeek 官方 API 的方案在 audit 环节过不去。问题不在模型本身,在于数据要流到中国管辖下。开源权重让自托管这条路径开放,这是 V4 跟其他中国闭源模型的核心差异:你可以在自己的 VPC 里跑 V4-Pro,数据不出本地,合规风险降到和任何 open-weight 模型相当的水平。

实战中的几个典型坑

能力画像只是一半,另一半是接入时才会发现的细节。下面这几个坑在发布几天后已经在社区里反复出现。

computer use 锁 Codex 桌面应用。前面场景二已经展开。GPT-5.5 的 OSWorld 78.7% 能力目前只在 macOS 上的 Codex 桌面应用里可用,Responses API 里的 computer-use tool 是 GPT-5.4 级别,EU/UK 没开放。如果你做 API-based agent,这一项拿不到。Opus 4.7 的 computer use 则是走 Messages API 的标准 tool computer_20251124,配合 3.75 MP 分辨率和 1:1 坐标映射,集成成本明显低。OSWorld 分数两家差不到 1 个百分点(78.0% 对 78.7%),但能不能用到完全是两回事。

Opus 4.7 超过 200K prompt 单价翻倍。Opus 4.7 sticker 价 $5/$25 看起来跟 GPT-5.5 持平,实际 200K 以上单价跳到 $10/$37.50,GPT-5.5 全程 flat $5/$30。也就是说长 prompt 场景下,Opus 4.7 的输出反而比 GPT-5.5 贵 25%。Anthropic 的 tokenizer 同时换了,同样内容要算多 1.0 到 1.35 倍的 token,代码和非英语内容膨胀明显。如果你的任务涉及大文档或大 codebase,账单要按 +20% 估。

Gemini 3.1 Pro 的 200K 成本拐点。Gemini 在 ≤200K 是 $2/$12,>200K 翻到 $4/$18。Verdent AI 的工程报告记录了一个典型踩坑,agent 把自己的输出反复回灌到下一轮 context,前三轮还在 200K 以内,到第四轮就跨过阈值,从此每个 token 按双倍价计费(Verdent AI 报告)。这不是模型问题,是 agent 设计时必须显式考虑的成本断档。

GitHub Copilot 的 multiplier 不跟 sticker 绑定。Copilot 把 GPT-5.5 和 Opus 4.7 都从 1.0 倍(GPT-5.4 的水平)调到 7.5 倍,Opus 4.6 时期是 3.0 倍。也就是说 Copilot 在它的 quota 模型里认为这批新 frontier 消耗成本跳了 7.5 倍,不是 sticker 上的 2 倍。r/GithubCopilot 的典型反应是”是时候迁到 Anthropic 直 sub 了”。中间代理平台的定价经常比 sticker 更能反映真实账单。

DeepSeek V4 三种接入方式的风险不同。官方 API(api.deepseek.com)最便宜但数据驻留中国,合规敏感场景过不去。第三方推理(OpenRouter、DeepInfra、Fireworks、Together)定价照搬官方,能绕开中国数据驻留,但要核实第三方路由本身是否会跨多个 provider。自托管(MIT license)是合规最干净的路径,V4-Flash 单 H200 能跑(FP4+FP8 ~158GB),V4-Pro 要 8x H100 80GB(~862GB)。WaveSpeed 实测:日吞吐 50M tokens 以下走官方 API 划算,300M+ 自托管回本。

Opus 4.7 的 extended thinking 被全删。原来的 thinking={"type": "enabled", "budget_tokens": ...} 现在直接返回 400 错误。要迁到 thinking={"type": "adaptive"} + output_config={"effort": ...}。你的代码如果有硬编码的 thinking budget,切 Opus 4.7 前要先重写。这是 Caylent 专门标出的 breaking change。

按任务派发的决策矩阵

场景 例子 推荐模型 依据
Agentic coding loop 30+ 步 shell / build / test / fix 主选 GPT-5.5,备选 Opus 4.7 Terminal-Bench 2.0 上 GPT-5.5 82.7% 领先 Opus 4.7 的 69.4% 共 13 个百分点,是 GPT-5.5 所有 benchmark 里最大单项优势。DeepSeek V4 不派(67.9%,差 15 个百分点)
真实 GitHub issue 修复 / 跨文件 refactor / 生产级 PR resolution 线上 bug 回归、依赖升级、跨模块重写 主选 Opus 4.7,备选 GPT-5.5 SWE-Bench Pro 64.3% 是 GA 模型市场第一,比 GPT-5.5 的 58.6% 高 5.7 个百分点。Cursor 内部 CursorBench 58% → 70%、Rakuten 自报生产任务解决量 3× 是生产级行为证据。DeepSeek V4-Pro 备选(SWE-Pro 55.4% 差 9 个百分点,但便宜 9 倍)
事实敏感报告 法规分析、财务摘要、医疗文本整理 主选 Opus 4.7 AA-Omniscience hallucination rate 36%,是市场唯一低于 50% 的。GPT-5.5 是 86%、Gemini 3.1 Pro 是 88%,差距大到不能混用
纯推理 / 数学 FrontierMath、AIME、数学证明 主选 GPT-5.5,备选 Gemini 3.1 Pro FrontierMath Tier 4 GPT-5.5 35.4% 对 Opus 4.7 的 23%,差距稳定。Gemini 3.1 Pro AIME 95% 同档可替代
长文档 retrieval / RAG 合同分析、长会议转录查找、long codebase 精准定位 主选 GPT-5.5 或 Opus 4.6 Graphwalks BFS 1M GPT-5.4 9.4% → GPT-5.5 45.4%。Opus 4.7 不派:1M needle-in-haystack 59.2%,比 4.6 的 91.9% 退步 32 个百分点
长文档推理 跨 500K+ 上下文做多跳推理、长 codebase 架构分析 主选 Opus 4.7 长 context 上的推理质量(不是 retrieval)Opus 4.7 仍是第一梯队,跟 GDPval-AA 1753 Elo 的 agentic 能力一脉相承
多模态 视频理解、UI 截图操作、PDF 文档抽取 主选 Gemini 3.1 Pro Video-MMMU 87.6%、ScreenSpot-Pro 72.7%、OmniDocBench 0.115 三条全面领先。GPT-5.5 本次发布对多模态基本没动,DeepSeek V4 preview 是 text-only
搜索密集 agentic deep research 多轮检索 + 综合写报告 主选 Gemini 3.1 Pro,备选 GPT-5.5 BrowseComp 85.9% 第一,Search Grounding 每月 5000 次免费额度是额外优势。Opus 4.7 不派(BrowseComp 79.3%,本次唯一回归项)
Computer use / RPA / 屏幕自动化 让 agent 操作用户的浏览器、桌面应用 主选 Opus 4.7 OSWorld 78.0% 对 GPT-5.5 78.7% 几乎持平,但 Anthropic 的 computer use 是标准 Messages API 的 tool,集成成本低。GPT-5.5 目前只有 macOS Codex 桌面应用路径,不通用
高吞吐、低复杂度 API 调用 分类、摘要、抽取、form filling 主选 DeepSeek V4-Flash 或 Sonnet 4.6 V4-Flash $0.14/$0.28 + 90% cache hit 折扣能把 effective input 压到 $0.028/M。GPT-5.5 不派:大吞吐场景下能力溢出、翻倍单价会直接吃掉 margin
中文任务 中文客服、中文内容生产、中文 QA 主选 DeepSeek V4-Pro 或 Gemini 3.1 Pro Chinese-SimpleQA DeepSeek 84.4、Gemini 3.1 Pro 85.9,美国 frontier 都在 76 档,差 8 个百分点是长期差距
成本敏感 side project / 学术研究 个人项目、hackathon、无商业 margin 限制的实验 主选 DeepSeek V4 开源权重、1M context、$0.14/M input,成本结构允许高吞吐实验。Cline CEO 的 anchor:Uber 用 DeepSeek 代替 Claude,2026 年的 AI 预算够撑 7 年而不是 4 个月
金融 / 医疗 / 法律 / 政府合规场景 需要过 audit、GDPR、HIPAA、SOC 2 的生产流水线 主选 Opus 4.7 走 Bedrock、GPT-5.5 走 Azure、Gemini 走 Vertex DeepSeek V4 官方 API 不派:多国政府已禁用、GDPR / CCPA 跨境传输风险、audit 过不去。必须用 DeepSeek 的话,唯一方案是自托管在自己的 VPC 里
创意写作 / 对话 / brainstorm 小说、角色扮演、头脑风暴 主选 Gemini 3 Pro 或继续用 Opus 4.6 Opus 4.7 不派:Zvi Mowshowitz 的 literal instruction following 观察、Reddit dogshit 帖子、boringbot PM 盲测都指向同一结论,4.7 结构化输出强、自然对话温度劣化

为什么你需要的是一个团队,不是一个模型

上面这张表最有信息量的地方不在任何一条具体派发建议,在整体看过去的那个 pattern:2026 年春,没有任何一个模型能在所有场景里做到最优。GPT-5.5 在 agentic coding 和 reasoning 上第一,hallucination 市场倒数;Opus 4.7 在长 horizon coding 和事实可信度上第一,但 1M retrieval 退步、创意写作退化;Gemini 3.1 Pro 在多模态和 browsing 上第一、性价比最好,但 hallucination 同病;DeepSeek V4 在价格和短任务 reasoning 上第一,但长 agentic 差 15 个百分点,合规是硬 blocker。

这种分布更像是模型能力到一定水平之后的必然结果,而不是市场暂时的噪音。每家的训练预算、数据、产品定位、合规边界都在把各自推向不同的取舍点。OpenAI 把 Codex 做成 superapp,把 computer use 锁在桌面应用里;Anthropic 把 1M retrieval 容量换成 agentic 推理能力;Google 把价格打到对手三分之一但牺牲事实可信度;DeepSeek 用便宜 9 到 30 倍加 MIT license 做差异化。每一条都是主动设计过的定位:每家都在定义自己最赚钱的那部分任务类型,然后围绕它做产品、定价、合规的组合。

把你的 AI 需求绑在任何一家身上,等于在你没选中的那些维度上持续承担风险。如果你的流水线上 80% 是长 horizon coding 加真实 issue 修复,Opus 4.7 是明显主力;但剩下 20% 的多模态、搜索、高吞吐批处理,强行用 Opus 4.7 就是在烧钱。反过来全部任务挂在 GPT-5.5 上,事实敏感的场景要接受 86% 的 hallucination rate,高吞吐任务要付翻倍 sticker,多模态基本没戏。

合理做法是把这件事当成组一个团队来做。不同任务派给不同的模型,每个模型去做它最擅长的那部分:长 horizon coding 给 Opus 4.7、agentic shell 给 GPT-5.5、多模态和 browsing 给 Gemini、高吞吐批处理给 DeepSeek V4-Flash、中文或自托管敏感数据给 DeepSeek V4-Pro。这种组合不是过度工程,是跟每个模型的强项和短板配套的自然选择。代价是要维护多 provider 接入的复杂度,换来的是每个任务类型都用到市场最优,不用在某一家的劣势区段持续多付钱或者在质量上持续吃亏。

这套思路落下去会改变两件事。一是 cost 模型要按任务类型分层算,不是按 token 单价算总账:高频低复杂度任务每次调用一分钱和长 horizon agent 每次调用五美元完全是两件事,不能共用一个预算。二是 evaluation 要内置,每个任务类型定义 5 到 10 个代表性 case,每次考虑切模型时跑一遍对比。这比看 AA Intelligence Index 或 SWE-Bench Pro 数字有用,那些 benchmark 给的是一般情况的平均值,你的生产流量分布可能跟任何一个 benchmark 都对不上。

总结

第一,这个参差不齐的能力边界(Ethan Mollick 所说的 jagged frontier)短期不会收敛。四家的取舍点指向不同方向,每家都在主动强化自己的差异化:OpenAI 走 superapp 路线、Anthropic 走 agentic 工人路线、Google 走性价比加多模态路线、DeepSeek 走 open weight 加成本路线。2027 年这个分布会更清晰,但不会回到一个模型打天下的状态。

第二,因此你的系统架构需要一个抽象层。不要把业务代码直接绑死在某一家的 SDK 上,也不要在产品里硬编码某个固定模型。这里说的抽象层是一种架构原则,不是某个具体工具:你的系统要在模型选择这个维度上留出切换空间,任务类型和模型之间要有一条显式的 routing 逻辑,每个任务类型可以独立评估、独立切换。这种原则层面的决定比选哪家今天最强重要得多。今天谁最强这件事每三到六个月就要重新评估一次;能按任务切换这件事只要做一次架构设计,就够用未来几年。

把这件事做好的团队,都是每次新发布出来就先在自己的任务矩阵上跑一遍、然后决定在哪些任务上切、哪些不切的团队。这是 2026 年做 AI 选型的基本功。

来源索引

官方一手: - OpenAI: Introducing GPT-5.5 - GPT-5.5 System Card(PDF) - Anthropic: Claude Opus 4.7 发布 - Anthropic Opus 4.7 System Card(PDF) - Google DeepMind: Gemini 3.1 Pro 模型卡 - DeepSeek V4 技术报告(PDF) - DeepSeek V4 API 定价

独立 benchmark 与分析: - Artificial Analysis: GPT-5.5 是新 leading AI model - Artificial Analysis: Opus 4.7 deep dive - Artificial Analysis: Gemini 3.1 Pro Preview - Artificial Analysis: DeepSeek V4-Pro - LLM-Stats: GPT-5.5 vs Opus 4.7 - Vellum: Opus 4.7 benchmarks explained - Epoch AI: Opus 4.7 ECI score

独立技术评论: - Simon Willison: GPT-5.5 - Simon Willison: DeepSeek V4—almost on the frontier - Ethan Mollick: Sign of the future - Zvi Mowshowitz: Opus 4.7 Part 1 - Zvi Mowshowitz: Opus 4.7 Part 2 - Jake Handy: DeepSeek V4

生态与合规: - CSIS: Delving into Dangers of DeepSeek - WIRED: DeepSeek 数据流向中国 - GitHub Copilot premium request 计费表 - Lovable 生产数据 - Decrypt: DeepSeek V4 + Cline CEO Uber anchor - Verdent AI: Gemini 3.1 Pro 工程报告

鸭哥每日手记

日更的深度AI新闻和分析