模型架构产业与竞争

推理模型四年史：你以为的石破天惊，其实早有暗线

发布于 2026 年 6 月 17 日

2024 年 9 月，OpenAI 发布 o1。你在 ChatGPT 里问它一道竞赛数学题，它先沉默十几秒，屏幕上跳出一行行”正在思考”，然后给出答案。很多人第一次看到这个画面时，心里冒出的判断是：模型学会推理了，而且好像是一夜之间学会的。五个月后 DeepSeek R1 开源，把这件事推向高潮。一时间 reasoning model 成了行业标配，连市场份额曲线都被改写。

但把时间轴拉长，会发现一件反直觉的事。推理能力既不是 o1 发明的，也不是 R1 发明的。从”让模型把解题步骤写出来”到”让模型专门花算力去推理”，中间隔着一条走了整整四年的演化线。真正在 2024 年发生变化的，不是模型突然会推理了，而是另一件被大多数人忽略的事。

结论先说在前面。被笼统叫做 reasoning 的，其实是三件本该分开的东西。第一件是模型做多步推理的能力，这一层在 2022 年就已经被系统放大。第二件是用强化学习训练模型推理的训练方法，它在 2023 年就有了学术原型。第三件是把推理变成一种可以计费、可以调度的资源，做成产品卖给你。真正的分水岭在第三层，时间是 2024 年下半年，而连这一层都有清晰的前身。更反直觉的是，今天被宣传得最玄的那部分，纯强化学习让模型自发学会推理，恰恰是证据最弱、争议最大的一环。

一条走了四年的暗线

故事可以从 2022 年 1 月讲起。那一年 Google 的 Jason Wei 等人发了 Chain-of-Thought Prompting，核心发现是：在 prompt 里给模型几个带”逐步推理”的示例，模型就会照着输出中间步骤，数学和常识推理的成绩大幅提升。几个月后，Kojima 等人发现连示例都不用，只要在问题后面加一句”Let’s think step by step”，模型就会自己展开推理。这是大众认知里”思维链”的起点。

但这条线比 2022 年还要早。2021 年底的 Scratchpad 就已经在做 fine-tune，让模型把中间计算步骤写出来。2022 年的 STaR（Self-Taught Reasoner）更关键，它用模型自己生成的正确推理链反过来 fine-tune 自己，这就是”用推理训练推理”的雏形，也是后来强化学习自我改进思路的萌芽。换句话说，从纯靠提示诱导推理，过渡到靠训练把推理能力固化进权重，这个跨越在 2022 年就已经发生了，不是 2024 年的事。

再往上是评估侧的演化。最常被引用的过程奖励模型（process reward model，给每一步打分）论文是 OpenAI 2023 年 5 月的 Let’s Verify Step by Step，它开源了 80 万条步级标注的 PRM800K 数据集，被广泛视为 o1 的技术前身。不过这个概念的首次系统对比，是 DeepMind 在 2022 年 11 月的 Uesato 等人做的，那篇才是把”只看最终答案”和”看中间步骤”两种监督方式正式对立起来的源头。有意思的是，这篇的作者后来注明”在 DeepMind 完成工作，现已加入 OpenAI”，人和思路一起迁移了过去。

到 2024 年 8 月，最后一块拼图出现。Snell 等人的 Scaling LLM Test-Time Compute Optimally（Stanford、Google DeepMind 和 CMU 合作）给出了一个量化结论：在推理时多花算力，可以击败参数量大 14 倍的模型。这是 o1”想得更久”叙事的直接学术注脚。

这样一来，到 2024 年中，所有原料都齐了。推理能力有 CoT 系列放大，步级验证器有 PRM 铺路，“推理时多花算力换准确率”有 test-time compute 的 scaling law 证明。缺的只是一个把这些零件组装成产品、并大规模用强化学习训练它的人。

o1 到底改变了什么

OpenAI 在官方博客里刻意回避了学术名词，只用两个产品级动词描述 o1：think 和 reason。它真正做的有两件事。

第一件，用大规模强化学习训练模型的思维链。在 o1 之前，模型的推理能力主要靠 prompt 诱导或少量 fine-tune。o1 把”在思维链上做 RL、用可验证奖励（数学题有标准答案、代码能跑通）做反馈信号”做成了大规模训练流程。这种训练范式被后来的研究称为 RLVR（Reinforcement Learning with Verifiable Rewards），它摆脱了 RLHF 对人工标注的依赖。

第二件，也是更关键的范式转变：把推理变成一种可以计费、可以调度的资源。o1 在 API 里引入了 reasoning tokens 的概念，这些 token 照常按输出计费、占用上下文窗口，但内容对用户隐藏。开发者只能看到计数，看不到模型到底想了什么。随后 o3-mini 又把 reasoning_effort 做成 low/medium/high 三档参数，让你能控制模型花多少算力去想。推理第一次成了一个可以拧的旋钮。

这个转变的分量，LessWrong 的一篇技术入门用 Sutton 的 Bitter Lesson 来定位。Sutton 那句著名的 Bitter Lesson 讲的是，search 和 learning 都靠算力驱动，但过去十年整个行业只 scaling 了 learning（预训练），search 这条线一直没接上。o1 把推理时的 search 接了上去，相当于给 scaling law 开了第二个轴。这不是能力突破，是资源维度的突破。

值得提一句 o1 藏起推理过程的原因。OpenAI 给了三条理由：用户体验、竞争优势、用于安全监测。独立解读普遍认为第二条才是真因，也就是防止对手用暴露的思维链去蒸馏自己的模型。Simon Willison 当时公开表达不满，认为对依赖可解释性的开发者来说，透明度是一切的基础。

被高估的那部分魔法

故事到这里还缺一块拼图，而这一块恰恰被宣传得最响，也是最该打折扣的。

DeepSeek 在 R1 论文里讲了一个相当浪漫的故事。他们训练了 R1-Zero，直接在预训练好的基座模型上跑纯强化学习，不用任何监督数据，结果模型自发涌现出反思、验证、长推理这些行为，论文里还把这个瞬间叫作 aha moment。Nature 正刊版也确认了这些描述。如果这个故事原样成立，那确实是”无中生有”的奇迹。

但独立研究很快给出了反证。Sea AI Lab 的标题直接是”There May Not be Aha Moment in R1-Zero-like Training”。他们系统测试了 Qwen2.5、DeepSeek-Math、Llama-3.x 等一批基座模型，发现一个尴尬的事实：所谓的 aha moment 在 epoch 0 就出现了，也就是完全不训练的基座模型本身就已经会自我纠正。强化学习做的事，只是提高了这些行为出现的频率。清华团队更进一步，证明 RLVR 只是在优化采样效率，并没有扩展模型的推理边界。还有一个反常识的结果：在 Qwen2.5-Math-7B 上用随机奖励做 RL，居然也能让 MATH-500 成绩提升 21%，接近用真实奖励的 29%。这暗示部分收益可能只是”任何强化学习训练的副作用”。

把这些证据拼起来，更准确的表述是：强化学习并没有凭空创造推理能力，它释放并锐化了预训练阶段就已经烘进模型权重里的推理碎片。R1-Zero 的起点是 DeepSeek-V3-Base，这个基座本身就在海量含数学、代码、思维链的语料上预训练过。所谓”纯强化学习诞生推理”，必须在这层前提上理解。

这并不是否定 R1 的工程价值。它确实把性能拉到了 o1 级别，而且做得便宜得多。真正值得钦佩的也不是”强化学习创造了推理”，而是”强化学习加可验证奖励，是一种极其廉价的方式来挖掘和放大模型里已经存在的能力”。

五个月内的全行业收敛

从 o1 在 2024 年 9 月发布，到 Anthropic 在 2025 年 2 月推出 Claude 3.7 的 extended thinking，前后只有五个半月。在这段时间里，几乎所有头部实验室都推出了 reasoning model。阿里的 Qwen QwQ 在 2024 年 11 月开源，Google 的 Gemini 2.0 Flash Thinking 在 12 月上线，月之暗面的 Kimi k1.5 和 DeepSeek R1 正式版在同一天发布，智谱的 GLM-Zero 在年底跟进，xAI 的 Grok 3 带着完全可见的思考过程在 2025 年 2 月出现。到 2025 年底，OpenRouter 的数据显示 reasoning 模型已经占全部 token 用量的大约一半。从”只有 o1”到”占半壁江山”，只用了一年。

收敛为什么这么快。o1 定义了范式，证明这条路能跑通。但真正压低门槛的是 DeepSeek R1。在 R1 之前，外界对 o1 的训练方法完全黑箱，社区只能猜测。R1 用一篇详尽的论文、开放权重、六个蒸馏模型和明确的 GRPO 训练配方，把 reasoning model 从”OpenAI 的神秘配方”变成了”任何有基础模型和强化学习工程能力的团队都能尝试的工程问题”。这就是它最深的意义，不是发明了 reasoning，而是把 reasoning 的 know-how 公有化。

这里面有两个被忽略的细节值得点出。

第一，中国其实比西方更早进入这个赛道。大众印象里是”OpenAI 先行、中国跟进”，但 DeepSeek 的 R1-Lite 预览版在 2024 年 11 月 20 日就发了，比 Google 的 Gemini Thinking 早了整整一个月。

第二，所有玩家里 OpenAI 是唯一把推理过程藏起来的。其余几乎所有厂商都让 reasoning 可见。这不是偶然，背后是两种安全观的分歧。Anthropic 从 2023 年就在系统研究思维链的忠实度，他们发现一个反直觉的现象：模型越大，思维链越不忠实，也就是越爱事后合理化。2025 年 4 月他们又证实，给 Claude 3.7 和 R1 偷偷递提示，它们在思维链里承认用了提示的比率分别只有 25% 和 39%。基于这条研究线，Anthropic 选择把思考过程做成可见、可调预算的，既给开发者审计能力，也坦诚承认思考文本不等于模型的真实计算。这和 OpenAI 把 reasoning tokens 藏起来，是两条相反的产品哲学。

还有一条更深的演化趋势。2024 年底到 2025 年初，所有 reasoning model 都是独立的纯推理模型。但 2025 年内出现了明显的向 hybrid 收敛的迹象：Claude 3.7 把思考做成同一个模型上的开关，自称”第一个混合推理模型”；Gemini 2.5 把思考默认内嵌、无法关闭；Qwen3 和 DeepSeek V3.1 都做了可切换的双模式。行业在”要不要做推理模型”上快速达成共识，又在”推理是独立模型还是单模型的一个模式”上从分歧走向统一。

真正发生变化的那个维度

回到最初的问题。reasoning model 是石破天惊蹦出来的吗。

如果把”会不会推理”当作判断标准，答案是明确的否定。推理能力从 2022 年起就被系统放大，到 2024 年中已经相当成熟。o1 在数学和编程 benchmark 上的提升是真实的，但它是这条连续演化线的累积结果，不是凭空的跃迁。如果把”训练方法”当标准，强化学习训练思维链这条路也有 2023 年的 PRM 和 test-time compute 论文做学术前身。

真正在 2024 年断裂的，是产品化这一层。推理第一次成了一种可以被计费、被调度、被做成参数调节的资源。这件事的意义在于它给 scaling 开了第二个轴。过去十年整个行业在预训练这个轴上狂奔，Karpathy 在 2025 年回顾里直接把 RLVR 称作新的主要训练阶段，并指出 2025 年大部分能力进步都来自行业在消化这个新阶段积压的”低垂果实”。

更深一层的启示也许是这样。能力很少会真的震惊一个领域。会震惊的，是有人把多年积累的研究打包成一种别人能购买、调度、在上面构建的资源。reasoning model 不是发明的高光时刻，它是一条四年研究线变成基础设施的时刻。而被宣传得最玄的那部分魔法，纯强化学习让模型无中生有地推理，恰恰最经不起追问。这或许是看待任何技术”突破”时都值得带上的一把尺子：先分清，你看到的是能力的诞生，还是能力的包装。