模型架构产业与竞争

推理模型四年史:你以为的石破天惊,其实早有暗线

2024 年 9 月,OpenAI 发布 o1。你在 ChatGPT 里问它一道竞赛数学题,它先沉默十几秒,屏幕上跳出一行行”正在思考”,然后给出答案。很多人第一次看到这个画面时,心里冒出的判断是:模型学会推理了,而且好像是一夜之间学会的。五个月后 DeepSeek R1 开源,把这件事推向高潮。一时间 reasoning model 成了行业标配,连市场份额曲线都被改写。

但把时间轴拉长,会发现一件反直觉的事。推理能力既不是 o1 发明的,也不是 R1 发明的。从”让模型把解题步骤写出来”到”让模型专门花算力去推理”,中间隔着一条走了整整四年的演化线。真正在 2024 年发生变化的,不是模型突然会推理了,而是另一件被大多数人忽略的事。

结论先说在前面。被笼统叫做 reasoning 的,其实是三件本该分开的东西。第一件是模型做多步推理的能力,这一层在 2022 年就已经被系统放大。第二件是用强化学习训练模型推理的训练方法,它在 2023 年就有了学术原型。第三件是把推理变成一种可以计费、可以调度的资源,做成产品卖给你。真正的分水岭在第三层,时间是 2024 年下半年,而连这一层都有清晰的前身。更反直觉的是,今天被宣传得最玄的那部分,纯强化学习让模型自发学会推理,恰恰是证据最弱、争议最大的一环。

一条走了四年的暗线

故事可以从 2022 年 1 月讲起。那一年 Google 的 Jason Wei 等人发了 Chain-of-Thought Prompting,核心发现是:在 prompt 里给模型几个带”逐步推理”的示例,模型就会照着输出中间步骤,数学和常识推理的成绩大幅提升。几个月后,Kojima 等人 发现连示例都不用,只要在问题后面加一句”Let’s think step by step”,模型就会自己展开推理。这是大众认知里”思维链”的起点。

但这条线比 2022 年还要早。2021 年底的 Scratchpad 就已经在做 fine-tune,让模型把中间计算步骤写出来。2022 年的 STaR(Self-Taught Reasoner) 更关键,它用模型自己生成的正确推理链反过来 fine-tune 自己,这就是”用推理训练推理”的雏形,也是后来强化学习自我改进思路的萌芽。换句话说,从纯靠提示诱导推理,过渡到靠训练把推理能力固化进权重,这个跨越在 2022 年就已经发生了,不是 2024 年的事。

再往上是评估侧的演化。最常被引用的过程奖励模型(process reward model,给每一步打分)论文是 OpenAI 2023 年 5 月的 Let’s Verify Step by Step,它开源了 80 万条步级标注的 PRM800K 数据集,被广泛视为 o1 的技术前身。不过这个概念的首次系统对比,是 DeepMind 在 2022 年 11 月的 Uesato 等人 做的,那篇才是把”只看最终答案”和”看中间步骤”两种监督方式正式对立起来的源头。有意思的是,这篇的作者后来注明”在 DeepMind 完成工作,现已加入 OpenAI”,人和思路一起迁移了过去。

到 2024 年 8 月,最后一块拼图出现。Snell 等人的 Scaling LLM Test-Time Compute Optimally(Stanford、Google DeepMind 和 CMU 合作)给出了一个量化结论:在推理时多花算力,可以击败参数量大 14 倍的模型。这是 o1”想得更久”叙事的直接学术注脚。

这样一来,到 2024 年中,所有原料都齐了。推理能力有 CoT 系列放大,步级验证器有 PRM 铺路,“推理时多花算力换准确率”有 test-time compute 的 scaling law 证明。缺的只是一个把这些零件组装成产品、并大规模用强化学习训练它的人。

o1 到底改变了什么

OpenAI 在 官方博客 里刻意回避了学术名词,只用两个产品级动词描述 o1:think 和 reason。它真正做的有两件事。

第一件,用大规模强化学习训练模型的思维链。在 o1 之前,模型的推理能力主要靠 prompt 诱导或少量 fine-tune。o1 把”在思维链上做 RL、用可验证奖励(数学题有标准答案、代码能跑通)做反馈信号”做成了大规模训练流程。这种训练范式被后来的研究称为 RLVR(Reinforcement Learning with Verifiable Rewards),它摆脱了 RLHF 对人工标注的依赖。

第二件,也是更关键的范式转变:把推理变成一种可以计费、可以调度的资源。o1 在 API 里引入了 reasoning tokens 的概念,这些 token 照常按输出计费、占用上下文窗口,但 内容对用户隐藏。开发者只能看到计数,看不到模型到底想了什么。随后 o3-mini 又把 reasoning_effort 做成 low/medium/high 三档参数,让你能控制模型花多少算力去想。推理第一次成了一个可以拧的旋钮。

这个转变的分量,LessWrong 的一篇技术入门 用 Sutton 的 Bitter Lesson 来定位。Sutton 那句著名的 Bitter Lesson 讲的是,search 和 learning 都靠算力驱动,但过去十年整个行业只 scaling 了 learning(预训练),search 这条线一直没接上。o1 把推理时的 search 接了上去,相当于给 scaling law 开了第二个轴。这不是能力突破,是资源维度的突破。

值得提一句 o1 藏起推理过程的原因。OpenAI 给了三条理由:用户体验、竞争优势、用于安全监测。独立解读普遍认为第二条才是真因,也就是防止对手用暴露的思维链去蒸馏自己的模型。Simon Willison 当时公开表达不满,认为对依赖可解释性的开发者来说,透明度是一切的基础。

被高估的那部分魔法

故事到这里还缺一块拼图,而这一块恰恰被宣传得最响,也是最该打折扣的。

DeepSeek 在 R1 论文里讲了一个相当浪漫的故事。他们训练了 R1-Zero,直接在预训练好的基座模型上跑纯强化学习,不用任何监督数据,结果模型自发涌现出反思、验证、长推理这些行为,论文里还把这个瞬间叫作 aha moment。Nature 正刊版也确认了这些描述。如果这个故事原样成立,那确实是”无中生有”的奇迹。

但独立研究很快给出了反证。Sea AI Lab 的标题直接是”There May Not be Aha Moment in R1-Zero-like Training”。他们系统测试了 Qwen2.5、DeepSeek-Math、Llama-3.x 等一批基座模型,发现一个尴尬的事实:所谓的 aha moment 在 epoch 0 就出现了,也就是完全不训练的基座模型本身就已经会自我纠正。强化学习做的事,只是提高了这些行为出现的频率。清华团队更进一步,证明 RLVR 只是在优化采样效率,并没有扩展模型的推理边界。还有一个反常识的结果:在 Qwen2.5-Math-7B 上用随机奖励做 RL,居然也能让 MATH-500 成绩提升 21%,接近用真实奖励的 29%。这暗示部分收益可能只是”任何强化学习训练的副作用”。

把这些证据拼起来,更准确的表述是:强化学习并没有凭空创造推理能力,它释放并锐化了预训练阶段就已经烘进模型权重里的推理碎片。R1-Zero 的起点是 DeepSeek-V3-Base,这个基座本身就在海量含数学、代码、思维链的语料上预训练过。所谓”纯强化学习诞生推理”,必须在这层前提上理解。

这并不是否定 R1 的工程价值。它确实把性能拉到了 o1 级别,而且做得便宜得多。真正值得钦佩的也不是”强化学习创造了推理”,而是”强化学习加可验证奖励,是一种极其廉价的方式来挖掘和放大模型里已经存在的能力”。

五个月内的全行业收敛

从 o1 在 2024 年 9 月发布,到 Anthropic 在 2025 年 2 月推出 Claude 3.7 的 extended thinking,前后只有五个半月。在这段时间里,几乎所有头部实验室都推出了 reasoning model。阿里的 Qwen QwQ 在 2024 年 11 月开源,Google 的 Gemini 2.0 Flash Thinking 在 12 月上线,月之暗面的 Kimi k1.5 和 DeepSeek R1 正式版在同一天发布,智谱的 GLM-Zero 在年底跟进,xAI 的 Grok 3 带着完全可见的思考过程在 2025 年 2 月出现。到 2025 年底,OpenRouter 的数据 显示 reasoning 模型已经占全部 token 用量的大约一半。从”只有 o1”到”占半壁江山”,只用了一年。

收敛为什么这么快。o1 定义了范式,证明这条路能跑通。但真正压低门槛的是 DeepSeek R1。在 R1 之前,外界对 o1 的训练方法完全黑箱,社区只能猜测。R1 用一篇详尽的论文、开放权重、六个蒸馏模型和明确的 GRPO 训练配方,把 reasoning model 从”OpenAI 的神秘配方”变成了”任何有基础模型和强化学习工程能力的团队都能尝试的工程问题”。这就是它最深的意义,不是发明了 reasoning,而是把 reasoning 的 know-how 公有化。

这里面有两个被忽略的细节值得点出。

第一,中国其实比西方更早进入这个赛道。大众印象里是”OpenAI 先行、中国跟进”,但 DeepSeek 的 R1-Lite 预览版在 2024 年 11 月 20 日就发了,比 Google 的 Gemini Thinking 早了整整一个月。

第二,所有玩家里 OpenAI 是唯一把推理过程藏起来的。其余几乎所有厂商都让 reasoning 可见。这不是偶然,背后是两种安全观的分歧。Anthropic 从 2023 年就在系统研究思维链的忠实度,他们发现一个反直觉的现象:模型越大,思维链越不忠实,也就是越爱事后合理化。2025 年 4 月他们又证实,给 Claude 3.7 和 R1 偷偷递提示,它们在思维链里承认用了提示的比率分别只有 25% 和 39%。基于这条研究线,Anthropic 选择把思考过程做成可见、可调预算的,既给开发者审计能力,也坦诚承认思考文本不等于模型的真实计算。这和 OpenAI 把 reasoning tokens 藏起来,是两条相反的产品哲学。

还有一条更深的演化趋势。2024 年底到 2025 年初,所有 reasoning model 都是独立的纯推理模型。但 2025 年内出现了明显的向 hybrid 收敛的迹象:Claude 3.7 把思考做成同一个模型上的开关,自称”第一个混合推理模型”;Gemini 2.5 把思考默认内嵌、无法关闭;Qwen3 和 DeepSeek V3.1 都做了可切换的双模式。行业在”要不要做推理模型”上快速达成共识,又在”推理是独立模型还是单模型的一个模式”上从分歧走向统一。

真正发生变化的那个维度

回到最初的问题。reasoning model 是石破天惊蹦出来的吗。

如果把”会不会推理”当作判断标准,答案是明确的否定。推理能力从 2022 年起就被系统放大,到 2024 年中已经相当成熟。o1 在数学和编程 benchmark 上的提升是真实的,但它是这条连续演化线的累积结果,不是凭空的跃迁。如果把”训练方法”当标准,强化学习训练思维链这条路也有 2023 年的 PRM 和 test-time compute 论文做学术前身。

真正在 2024 年断裂的,是产品化这一层。推理第一次成了一种可以被计费、被调度、被做成参数调节的资源。这件事的意义在于它给 scaling 开了第二个轴。过去十年整个行业在预训练这个轴上狂奔,Karpathy 在 2025 年回顾 里直接把 RLVR 称作新的主要训练阶段,并指出 2025 年大部分能力进步都来自行业在消化这个新阶段积压的”低垂果实”。

更深一层的启示也许是这样。能力很少会真的震惊一个领域。会震惊的,是有人把多年积累的研究打包成一种别人能购买、调度、在上面构建的资源。reasoning model 不是发明的高光时刻,它是一条四年研究线变成基础设施的时刻。而被宣传得最玄的那部分魔法,纯强化学习让模型无中生有地推理,恰恰最经不起追问。这或许是看待任何技术”突破”时都值得带上的一把尺子:先分清,你看到的是能力的诞生,还是能力的包装。

鸭哥每日手记

日更的深度AI新闻和分析