用过 reasoning model 的人大概都经历过这种事。你丢一道中等难度的编程题给 DeepSeek 或 GPT,它先花一千多 token 逐条解释你给的约束条件,再花两千 token 列举三种可能的实现方案并比较优劣,最后用五百 token 写出答案。答案是正确的,但前面那三千多 token 你根本不想看,而且你还得为它们付钱。
这不是某个模型的毛病,而是 reasoning model 的默认工作方式。2024 年 OpenAI 发布 o1 之后,整个行业得出了一个结论:让模型想得更久,它就能做更难的事。准确率和推理 token 数正相关,这个关系有扎实的数据支撑。于是 DeepSeek 的 R1 让模型在 RL 训练中自由涌现推理链,Google 的 Gemini Deep Think 投入大量工程资源扩展思考时间,Anthropic 给 Claude 加了 extended thinking。大家都在同一个方向上卷:怎么让模型想得更久。
但到了 2025 年中,事情开始起变化。
多个研究组几乎同时发现了一件事:如果你在训练时告诉模型,正确率一样的情况下请尽量少写,模型不仅不会变笨,在某些情况下反而变强了。
NVIDIA 用一个简单的长度惩罚配合正确的优化算法,砍掉了 70% 以上的回复长度,准确率基本没动。另一项研究(Draft-Thinking)实现了两种模式:快速模式砍掉 76.7% 的 token,准确率只损失不到 2%;仔细模式在准确率提升 14.68% 的同时,token 用量反而减少了 42.7%。
这些数字背后的直觉其实很简单。模型之所以写那么多,不是因为它需要那么多 token 来推理,而是因为从来没有人告诉它不需要。训练目标只奖励正确率,不惩罚啰嗦。模型找到了最省力的提升准确率的方法:多想几步。多出来的推理里,有一部分是真正有价值的思考,但相当比例是重复的自我验证、对显而易见的事情的过度解释、以及在多个等价方案之间反复权衡。
当你加一个长度惩罚,模型被迫在正确率和简洁性之间找平衡,它就开始做一件之前不会做的事:识别哪些推理步骤是真正必要的,哪些是可以通过跳步来省略的。
Meta 在 Muse Spark 的技术博客里展示了这个现象的一个更完整的版本。他们在 AIME(美国数学邀请赛)上做实验,在 RL 训练中逐步加大 thinking time penalty 的权重,观察到了一个三阶段动态。
第一阶段完全符合预期:模型通过想更久来提升准确率。这和 o1 时代的共识一致。
第二阶段出现了一个转折。随着惩罚权重增加到某个阈值,模型突然切换了策略——它开始用更少的 token 解决同样的问题,准确率不降。不是逐步优化,是一个突变。Meta 把这个现象称为 thought compression。
第三阶段更有意思。压缩完成后,模型重新开始扩展推理链——但这次是从一个更高的准确率基线出发。最终结果是用更少的总 token 达到了更高的性能。
用人类经验类比:学微积分的时候,一开始你需要在纸上写出每一步推导,因为你不熟练。练多了之后,你看一眼就知道积分结果,中间步骤全跳了。但遇到真正没见过的新题,你又会重新拿出纸来写推导——不过你写得更高效了,因为你已经内化了基本的计算技巧。
这个三阶段动态在其他研究中也被观察到。Wang et al. 从理论角度描述了类似的相变:RL 训练初期模型优化程序正确性,到了某个临界点瓶颈转移到策略探索,DeepSeek-R1-Zero 中著名的 aha moment 就是这个相变的行为签名。
读到这儿你可能会想:GPT 有 reasoning_effort 参数(low/medium/high),Claude 有 extended thinking,都是让用户控制模型想多久,这跟 thought compression 有什么区别?区别在于层面。reasoning_effort 是推理时的旋钮——同一个模型,你选择让它少想或多想,模型本身的推理效率没有变。Thought compression 发生在训练时:模型在 RL 训练中被惩罚冗余推理,学会了跳过不必要的步骤,输出的推理天然就更短。Muse Spark 的 Instant/Thinking/Contemplating 三档和 reasoning_effort 表面上看起来一样,但底层一个是训练出来的效率差异,一个是推理时的预算分配。对终端用户来说体感差异不大,真正的差别在 token 计费上——如果 Muse Spark 确实能用更少的 token 达到同等准确率,成本优势就会体现出来。不过 Meta 目前没有公开 API 和定价,这个优势还无法独立验证。
如果冗余推理可以被压缩掉,省下来的计算预算花在哪里?
Meta 给出的另一个答案是 Contemplating 模式:不让 1 个 agent 想 60 秒,而是让 16 个 agent 同时想 10 秒,然后综合结果。这个模式在 Humanity’s Last Exam 上达到了 58.4%。
这个思路的直觉也很直接。假设你遇到一道难题,有两种策略:一种是你自己坐在桌前想一个小时,另一种是你把题目同时发给 16 个同事,每人想 5 分钟然后大家投票选最佳答案。对很多问题来说,第二种策略效果更好,因为不同的人会从不同角度切入,而一个人想太久容易钻进一条死胡同出不来。
但这里有一个关键问题:谁来选?
多数投票在数学这种有确定性答案的领域效果不错——正确答案就是正确答案,出现次数最多的那个大概率是对的。但在开放式问题中,16 个答案可能全部有道理,也可能全部有错误,而且错误的方向可能一致。这时候多数投票就失灵了,你需要一个更强的裁判。
这就是过去一年里最活跃的研究方向:训练一个专门的验证器(verifier)来替代多数投票。
DeepSeek 发表的 Efficient Reasoning via Reward Model 是一个代表。他们训练了一个 Conciseness Reward Model,专门给推理路径的简洁度打分。论文指出了一个朴素长度惩罚的问题:惩罚太轻没用,惩罚太重模型会为了省 token 而跳过关键步骤(length collapse),或者训练过程直接崩掉(training collapse)。他们的解决方案是让 reward model 显式地理解什么是好的简洁推理——省略的是冗余步骤,不是关键推理。
DeepSeekMath-V2 从另一个角度切入:训练一个独立的验证模型来评估数学证明的质量,用它来指导 proof generator 的训练。这带来一个新问题:如果 generator 变得太强,验证器就失去了判别力。他们的解决方案是持续用更难的证明来训练验证器,保持两者之间的能力差距。
另一项研究(Self-PRM)发现了一个有趣的附带现象:DeepSeek-R1 在纯 RL 训练中,模型在学会解题的同时也隐式地学会了判断解题过程的质量——生成能力和验证能力共享底层机制。但这个隐式验证器的准确率在难题上不到 10%,说明要把验证能力从生成能力中分离出来并提升到可靠水平,还需要大量的额外训练。
这些工作的共同指向是:生成正在变得廉价,验证正在成为瓶颈。当一个大模型可以轻松生成 16 条推理路径时,决定最终准确率的不再是哪条路径最好,而是你能不能可靠地识别出哪条最好。
推理 token 的计费是 API 使用中最大的可变成本。如果你的应用每天调用一万次 reasoning model,每次平均多消耗 3000 个冗余 token,按当前定价这就是一笔不小的开销。所以推理效率不是一个学术话题,直接关系到你的产品经济学。
但更根本的变化在于,推理效率正在从模型的固有属性变成可设计的系统属性。你现在可以做的选择比一年前多了很多:
日常的、中等复杂度的任务,可以用经过压缩训练的模型或 draft 模式,砍掉大部分推理 token 而准确率损失很小。真正困难的任务,与其让一个模型想 60 秒,不如用并行采样加验证器的组合,在更短的延迟内拿到更好的结果。对于你的核心业务场景,可以考虑训练一个专门的验证器——它不需要很大,只需要在你关心的任务类型上可靠地判断推理质量。
Snell et al. 的实验提供了一个量化的参照:一个带验证器的小模型通过并行采样,可以超过 14 倍大的模型。这意味着在小团队预算有限的情况下,与其追求更大的模型,不如在推理架构上做优化——用多个便宜采样加一个强验证器的组合,可能在成本和效果上都优于直接调用最贵的大模型。
2024 年的行业共识是让模型想得更久。2025 年在让模型想得更少但同样好。2026 年在让模型想得更聪明而不是更久。这条线的方向已经清楚了。