2026年6月30日,Anthropic推出了Claude Sonnet 5。根据Anthropic Sonnet 5 官方文档,其促销输入和输出价格是每百万2美元和10美元。9月起将涨至3美元和15美元。根据Finout 分析,新分词器多产生约30%的token。同样任务的实际成本几乎达到前代Sonnet 4.6的两倍。
第二天,也就是7月1日,Palantir首席执行官Karp在电视节目中公开炮轰这种计量定价。根据CNBC对Karp的报道,Karp指出企业客户对目前的计费极度愤怒。他用了一个情绪激烈的词形容企业客户的看法:
Karp 原话的意思是:企业圈的基本看法是,“我要放松下来,把时间浪费在 token 上,得不到任何价值,他们还拿走我的知识产权。”
Karp认为,按字数收费的方式表明人工智能的核心逻辑完全走偏了:
“I’m not throwing shade at them, but something has gone completely wrong.”
他反问:如果大模型真的能创造价值,就该按效果分成,而不是按字数收费。Karp 的原话是,“如果这东西真值钱,比方说我明天能帮你赚 10 亿美元,难道我不该说’我帮你赚 10 亿,我要 30%’?既然这么值钱,为什么按 token 收费?”
同一周内,买方在逃避计量定价,卖方在加码计量定价。两边朝相反方向使劲,矛盾直接浮出水面。
token账单正在把一个过去被包月订阅掩盖的问题摊开。客户买的是结果,付的却是token,两者之间至今没有可靠的换算。买方拒绝不可预测的裸token账单,卖方因为亏损压力必须把成本显性化。这笔摩擦和缺口落在夹在中间的产品开发者身上。token计费不会消失,但会退到后台。留在前台直接收费的单位,必须比token更接近客户买到的结果。
买方逃的,是那种不可预测、跟业务成果脱钩的可变计算成本。
最直接的证据来自出行巨头Uber。Uber在2025年12月给约5000名工程师部署了Claude Code和Cursor。内部还设了AI工具用量排行榜,加速了消费。结果四个月内,2026全年AI编码预算烧光。
根据Fortune对Uber的报道,公司首席运营官Andrew Macdonald在播客中公开表示,公司理不清AI消费的投入产出比:
“that link is not there yet”
Macdonald解释说,即便代码出货增加,财务也很难在代码增量和用户功能之间画出直接因果。失去成果支撑,高额计算支出便无法在账面上自证。
为防预算失控,Uber采取了额度管控。根据Simon Willison对上限的分析,Uber将工程师单工具月支出封顶在1500美元。不可预测的可变成本由此转为可治理的固定上限。
微软也走了同样的路。据The Verge报道,微软在财年最后一天(6月30日)取消了数千名工程师的Claude Code许可,路由回自家的Copilot。官方称是统一工具链。但信源明确表示,决定也出于财务考量,借此削减财年运营成本。
中小开发者同样在用脚投票。2026年6月1日,GitHub Copilot从包月固定制转为按token用量计费。旧模式下超额会自动降级到便宜模型,新模式下超额要么停服要么按API费率额外扣费。
根据GitHub 社区讨论,许多此前仅消耗20%至30%额度的用户,在新规下仅一两天就耗尽额度。为避免超额扣费,大量开发者取消订阅,转向其他工具。
这三个案例指向同一个问题。企业和开发者的痛点,是不知道未来账单多大,也说不清花出去的钱换来了什么。在计量定价下,人均月度计算成本在 150 美元到 2000 美元之间波动,跨度 13 倍。预算不可预测成了计量定价在企业场景里过不去的坎。
卖方加码计量不是因为贪婪。高昂的亏损压力逼着他们把计算成本显性化。
即便是头部厂商也面临严峻的生存挑战。根据The Information报道,在约130亿美元营收基础上,OpenAI在2026年预计亏损140亿美元,是2024年的三倍。
Anthropic也一样。年化营收冲到470亿美元,但每月算力稳态成本高达12.5亿美元(年化150亿美元)。第二季度短暂实现5.59亿美元运营利润,但折旧压力下盈利窗口无法持续。
庞大的资本支出让云巨头和实验室之间的结算规则发生转向。典型例子是亚马逊和Anthropic。根据AI Weekly对亚马逊计费条款转向的报道,自2027年起,亚马逊向Anthropic支付模型使用费的单位,从按小时计算转为按token计费。
这一改变给亚马逊带来直接成本压力。为防账单失控,亚马逊工程团队开始把 Claude 蒸馏成更小版本。这些小模型喂给 Alexa 等产品线,提前减少 token 消耗。
背后是云巨头和闭源实验室之间的利益错位。亚马逊云、谷歌云和微软云按token转售第三方闭源模型,要跟模型原厂分成。客户若转用它们自研的低成本模型(如Nova或Gemini),云巨头保留全部收入。这笔账逼着各方死守每一枚token的成本。
双重夹击下,模型开发商在名义价格不变的情况下,通过升级tokenizer隐蔽涨价。
根据CloudZero关于Claude Opus价格的分析,新版模型启用的分词器,在处理相同文本时拆分出更多token。尤其在代码、JSON和XML上通胀最多35%。名义单价没变,但企业运行同样任务的账单已经默默涨了。
Forbes 的分析把这种转变称为 AI 行业第一个真实的价格发现机制。包月订阅制造了成本很低的假象,计量定价把真实成本暴露在财务部门眼前。一旦 CFO 能看见这条账单,“花这些钱换来了什么”就成了必须回答的问题。
看清买卖双方的博弈后,再看Karp的言论,会发现它背后有明确的商业利益。
2026年6月29日,Palantir宣布与英伟达合作,推出面向主权安全环境的AI操作系统。
据BusinessWire官方公告,该产品让客户在自己设备上跑开源模型,保留模型权重所有权。6月30日,Palantir发布九点主权人工智能宣言,其中宣称:
“Controlling your weights is controlling your fate.”
7月1日,Karp登上电视直播,痛陈token计费的荒谬。三天内三步棋走完:产品发布、舆论铺垫、媒体放大,形成商业闭环。
Palantir按席位和部署合同收费,收入随客户数和部署深度增长,不随token用量线性变化。Karp公开贬低token,能直接抬高Palantir自建模型产品线的吸引力。
即便如此,存在利益冲突的原告不等于案子是假的。扣除营销水分,Karp戳中的经济学问题依然成立。
把Karp的政治修辞和客观事实分开看。他指控闭源实验室偷取客户核心资产,至今缺乏公开证据。他把token定价拔高到财富税惩罚的政治高度,属于逻辑跳跃。
话说回来,Uber和微软的撤退行为是独立发生的。这些企业的预算危机从买方视角印证了同一件事:token收费模式跟企业获得的真实商业价值严重脱钩。原告带有偏见,但案子成立。
买方要成本确定,卖方要把成本转嫁出去。价值和消耗之间的这道翻译坎,只能由产品开发者来填。
为了把不可控的裸token账单包装成企业能接受的价格,开发者在底层架构上动手了。
在 API 聚合平台 OpenRouter 上,技术大迁移最为明显。据OpenRouter 编程模型排行榜,程序员首选计算工具的流量前四名全是开源模型:MiMo、MiniMax、腾讯 Hy3、智谱。此前垄断的闭源旗舰 Claude Opus,流量份额缩至 4.7%。
流量倒戈源于开源模型的极致性价比。以DeepSeek V4 Flash为例,其百万输入token价格在0.09至0.14美元之间,仅为闭源旗舰Opus的三十六分之一。输出token价格低至前者的八十九分之一。
不过,好架构师不会把赌注压在单一开源模型上。他们把AI网关和多模型路由层做成了标配。
路由器把简单查询、数据格式化和前置分类任务分流给便宜的开源模型。只有需要复杂多步推理或深度编码时,才调用最贵的闭源旗舰。公开数据显示,这套分流能把送往闭源大模型的请求压到26%。其余走开源模型低成本消化。
多模型路由之外,一批针对token消耗做拦截的技术在开发社区里迅速铺开。
根据arXiv的评测论文《不要破坏缓存》,前置部署prompt缓存后,智能体任务的输入成本可降41%至80%。多轮对话中效果最明显。
开发者还能在系统最前端加装语义缓存网络。高频出现的等价冗余查询在本地直接拦截,不向云端发请求。这一项能把整体API支出再砍40%到70%。
另外,开发者广泛利用服务商的离线批处理通道。容忍24小时延迟,就能拿到50%半价折扣,降低非紧急批处理任务的预算。
服务商自己也开始把决策权交还给开发者。思考深度调节、单任务信用预算上限等显性旋钮,让产品经理能直接参与成本与体验的微调。
代价是要诚实面对开源模型的价格水分。智谱的新一代开源模型GLM-5.2就是一例。它每百万token的标价极低,但实际任务中单次运行的输出token数量比前代涨了约65%。
开源模型经常用更多token换相近分数。从单任务整体成本看,它对闭源模型的实际优势比单价倍数显示的要小。但方向清楚,开发者在用架构手段把裸token账单改造成企业能接受的价格形态。OpenAI和Anthropic也在试验success-based pricing,把收费跟任务完成挂钩,侧面印证Karp指出了真问题。
即便有损耗,方向已经收不住。开发者用工程手段把难预测的账单改造成财务部门能接受的固定成本。据Axios报道,有企业客户在单月内因未设消费上限,累积了5亿美元的Claude账单。该报道来自匿名咨询顾问的单一信源,未经原厂证实。这个极端案例反过来逼所有开发者把成本控制架构提到最高优先级。
作为物理消耗指标,token不会凭空消失。它留在后台当meter,做底层服务器性能的计量单元。
不过,它的计费位置会退后。它会退出前台,回到后台。留在前台向企业出具账单的单位,必须跟企业真实利益挂钩:按任务收费、按席位包月、或按年度预算包干。
短期已经发生的是计量定价的信任危机。tokenizer通胀和GitHub Copilot改用量计费引发的退订潮,把这个问题表面化了。
中期看,2026下半年到2027年中,头部闭源服务商会在用户倒戈压力下降价30%到50%。为了保住IPO时给华尔街讲的毛利故事,降价可能包装成新的高效档位,而不是直接砍headline price。
长期看,把百万 token 直接作为前台计费单位的做法,正当性本身会被动摇。
闭源大模型相对开源模型那点增量智能,在九成常规任务中撑不起十倍的溢价。裸token计费正在被踢出前台,退回后台,做一个默默工作的仪表盘。