模型架构AI Agent

Meta 的 Muse Spark 学会不废话了，整个行业跟不跟？

发布于 2026 年 4 月 8 日

用过 reasoning model 的人大概都经历过这种事。你丢一道中等难度的编程题给 DeepSeek 或 GPT，它先花一千多 token 逐条解释你给的约束条件，再花两千 token 列举三种可能的实现方案并比较优劣，最后用五百 token 写出答案。答案是正确的，但前面那三千多 token 你根本不想看，而且你还得为它们付钱。

这不是某个模型的毛病，而是 reasoning model 的默认工作方式。2024 年 OpenAI 发布 o1 之后，整个行业得出了一个结论：让模型想得更久，它就能做更难的事。准确率和推理 token 数正相关，这个关系有扎实的数据支撑。于是 DeepSeek 的 R1 让模型在 RL 训练中自由涌现推理链，Google 的 Gemini Deep Think 投入大量工程资源扩展思考时间，Anthropic 给 Claude 加了 extended thinking。大家都在同一个方向上卷：怎么让模型想得更久。

但到了 2025 年中，事情开始起变化。

一个反直觉的发现

多个研究组几乎同时发现了一件事：如果你在训练时告诉模型，正确率一样的情况下请尽量少写，模型不仅不会变笨，在某些情况下反而变强了。

NVIDIA 用一个简单的长度惩罚配合正确的优化算法，砍掉了 70% 以上的回复长度，准确率基本没动。另一项研究（Draft-Thinking）实现了两种模式：快速模式砍掉 76.7% 的 token，准确率只损失不到 2%；仔细模式在准确率提升 14.68% 的同时，token 用量反而减少了 42.7%。

这些数字背后的直觉其实很简单。模型之所以写那么多，不是因为它需要那么多 token 来推理，而是因为从来没有人告诉它不需要。训练目标只奖励正确率，不惩罚啰嗦。模型找到了最省力的提升准确率的方法：多想几步。多出来的推理里，有一部分是真正有价值的思考，但相当比例是重复的自我验证、对显而易见的事情的过度解释、以及在多个等价方案之间反复权衡。

当你加一个长度惩罚，模型被迫在正确率和简洁性之间找平衡，它就开始做一件之前不会做的事：识别哪些推理步骤是真正必要的，哪些是可以通过跳步来省略的。

相变：从想更久到想更聪明

Meta 在 Muse Spark 的技术博客里展示了这个现象的一个更完整的版本。他们在 AIME（美国数学邀请赛）上做实验，在 RL 训练中逐步加大 thinking time penalty 的权重，观察到了一个三阶段动态。

第一阶段完全符合预期：模型通过想更久来提升准确率。这和 o1 时代的共识一致。

第二阶段出现了一个转折。随着惩罚权重增加到某个阈值，模型突然切换了策略——它开始用更少的 token 解决同样的问题，准确率不降。不是逐步优化，是一个突变。Meta 把这个现象称为 thought compression。

第三阶段更有意思。压缩完成后，模型重新开始扩展推理链——但这次是从一个更高的准确率基线出发。最终结果是用更少的总 token 达到了更高的性能。

用人类经验类比：学微积分的时候，一开始你需要在纸上写出每一步推导，因为你不熟练。练多了之后，你看一眼就知道积分结果，中间步骤全跳了。但遇到真正没见过的新题，你又会重新拿出纸来写推导——不过你写得更高效了，因为你已经内化了基本的计算技巧。

这个三阶段动态在其他研究中也被观察到。Wang et al. 从理论角度描述了类似的相变：RL 训练初期模型优化程序正确性，到了某个临界点瓶颈转移到策略探索，DeepSeek-R1-Zero 中著名的 aha moment 就是这个相变的行为签名。

读到这儿你可能会想：GPT 有 reasoning_effort 参数（low/medium/high），Claude 有 extended thinking，都是让用户控制模型想多久，这跟 thought compression 有什么区别？区别在于层面。reasoning_effort 是推理时的旋钮——同一个模型，你选择让它少想或多想，模型本身的推理效率没有变。Thought compression 发生在训练时：模型在 RL 训练中被惩罚冗余推理，学会了跳过不必要的步骤，输出的推理天然就更短。Muse Spark 的 Instant/Thinking/Contemplating 三档和 reasoning_effort 表面上看起来一样，但底层一个是训练出来的效率差异，一个是推理时的预算分配。对终端用户来说体感差异不大，真正的差别在 token 计费上——如果 Muse Spark 确实能用更少的 token 达到同等准确率，成本优势就会体现出来。不过 Meta 目前没有公开 API 和定价，这个优势还无法独立验证。

16 个人同时想，比 1 个人想 16 倍久更好

如果冗余推理可以被压缩掉，省下来的计算预算花在哪里？

Meta 给出的另一个答案是 Contemplating 模式：不让 1 个 agent 想 60 秒，而是让 16 个 agent 同时想 10 秒，然后综合结果。这个模式在 Humanity’s Last Exam 上达到了 58.4%。

这个思路的直觉也很直接。假设你遇到一道难题，有两种策略：一种是你自己坐在桌前想一个小时，另一种是你把题目同时发给 16 个同事，每人想 5 分钟然后大家投票选最佳答案。对很多问题来说，第二种策略效果更好，因为不同的人会从不同角度切入，而一个人想太久容易钻进一条死胡同出不来。

但这里有一个关键问题：谁来选？

多数投票在数学这种有确定性答案的领域效果不错——正确答案就是正确答案，出现次数最多的那个大概率是对的。但在开放式问题中，16 个答案可能全部有道理，也可能全部有错误，而且错误的方向可能一致。这时候多数投票就失灵了，你需要一个更强的裁判。

裁判正在成为瓶颈

这就是过去一年里最活跃的研究方向：训练一个专门的验证器（verifier）来替代多数投票。

DeepSeek 发表的 Efficient Reasoning via Reward Model 是一个代表。他们训练了一个 Conciseness Reward Model，专门给推理路径的简洁度打分。论文指出了一个朴素长度惩罚的问题：惩罚太轻没用，惩罚太重模型会为了省 token 而跳过关键步骤（length collapse），或者训练过程直接崩掉（training collapse）。他们的解决方案是让 reward model 显式地理解什么是好的简洁推理——省略的是冗余步骤，不是关键推理。

DeepSeekMath-V2 从另一个角度切入：训练一个独立的验证模型来评估数学证明的质量，用它来指导 proof generator 的训练。这带来一个新问题：如果 generator 变得太强，验证器就失去了判别力。他们的解决方案是持续用更难的证明来训练验证器，保持两者之间的能力差距。

另一项研究（Self-PRM）发现了一个有趣的附带现象：DeepSeek-R1 在纯 RL 训练中，模型在学会解题的同时也隐式地学会了判断解题过程的质量——生成能力和验证能力共享底层机制。但这个隐式验证器的准确率在难题上不到 10%，说明要把验证能力从生成能力中分离出来并提升到可靠水平，还需要大量的额外训练。

这些工作的共同指向是：生成正在变得廉价，验证正在成为瓶颈。当一个大模型可以轻松生成 16 条推理路径时，决定最终准确率的不再是哪条路径最好，而是你能不能可靠地识别出哪条最好。

这对每天用 AI 写代码的人意味着什么

推理 token 的计费是 API 使用中最大的可变成本。如果你的应用每天调用一万次 reasoning model，每次平均多消耗 3000 个冗余 token，按当前定价这就是一笔不小的开销。所以推理效率不是一个学术话题，直接关系到你的产品经济学。

但更根本的变化在于，推理效率正在从模型的固有属性变成可设计的系统属性。你现在可以做的选择比一年前多了很多：

日常的、中等复杂度的任务，可以用经过压缩训练的模型或 draft 模式，砍掉大部分推理 token 而准确率损失很小。真正困难的任务，与其让一个模型想 60 秒，不如用并行采样加验证器的组合，在更短的延迟内拿到更好的结果。对于你的核心业务场景，可以考虑训练一个专门的验证器——它不需要很大，只需要在你关心的任务类型上可靠地判断推理质量。

Snell et al. 的实验提供了一个量化的参照：一个带验证器的小模型通过并行采样，可以超过 14 倍大的模型。这意味着在小团队预算有限的情况下，与其追求更大的模型，不如在推理架构上做优化——用多个便宜采样加一个强验证器的组合，可能在成本和效果上都优于直接调用最贵的大模型。

2024 年的行业共识是让模型想得更久。2025 年在让模型想得更少但同样好。2026 年在让模型想得更聪明而不是更久。这条线的方向已经清楚了。