科研与技术前沿产业与竞争

为什么“不懂物理”的机器人反而赢了

发布于 2026 年 4 月 13 日

最近一年，机器人领域发生了一件反直觉的事情。

Unitree（宇树）的 G1 在各种场景中完成复杂动作，Figure AI 的机器人在 BMW 工厂连续工作了十个月，Physical Intelligence 的 π₀ 可以折叠衣物和组装物品。而 Boston Dynamics 花了三十年精心打磨的 Atlas，在 2024 年也开始引入强化学习和 foundation model 组件。

这些新一代机器人的共同特征是：它们不再试图理解物理。

传统机器人控制的核心假设是”先建模物理，再控制机器人”。你需要写出刚体动力学方程，建模关节摩擦、地面接触力、执行器非线性，然后用 MPC（模型预测控制）或轨迹优化来求解最优控制序列。这个路线优雅、可解释、有数学保证。

VLA（Vision-Language-Action）走了一条完全不同的路。它把一个预训练好的视觉语言模型（比如 Google 的 PaLI 或 Meta 的 Llama）拿过来，在机器人操作数据上微调，让模型直接从摄像头图像和语言指令预测下一步动作。本质上就是 next token prediction，和 ChatGPT 生成文字没有本质区别，只是输出的 token 变成了关节角度。

一个显而易见的问题是：一个连牛顿定律都没学过的模型，凭什么能控制机器人？

两条路线走了三十年

要回答这个问题，需要先看看两条路线各自走过了什么路，分别在哪里碰壁。

物理路线：从方程到优化到仿真

物理路线的起点可以追溯到 1970 年代。Vukobratović 提出了 ZMP（零力矩点）判据：只要外力合力矩落在支撑面内，机器人就不会倒。HONDA 的 ASIMO 就是基于这个理论设计的。代价是机器人走路极慢，因为 ZMP 本质上要求准静态平衡。

Marc Raibert 在 1986 年的 MIT Leg Lab 突破了这个限制。他的关键洞察是：动量本身是平衡资源，可以被利用而非回避。他把运动分解成三个解耦子问题（弹跳高度、前进速度、躯干姿态），每个用简单的 PD 控制器解决。这开创了动态平衡的研究，但控制律依赖手工推导的简化模型，难以扩展到高自由度机器人。

2010 年代，Todorov 等人把轨迹优化变成了实时 MPC，用 DDP（Differential Dynamic Programming）在当前状态附近做二阶展开，首次实现了 28 自由度人形机器人的 50Hz 实时控制。MIT 的 Di Carlo 和 Kim 进一步把 MPC 凸化为二次规划问题，计算量压缩到 1 毫秒以内，成为后来工业界（包括 Boston Dynamics 的 Spot）的标准工具。

到这里，物理路线的第一个瓶颈出现了：建模精度。MPC 的效果直接取决于物理模型的准确性，而现实世界中有太多东西难以精确建模。电机的非线性、传动机构的摩擦、足端与地面的接触力，这些都需要大量手工调试，而且模型参数会随温度、磨损而变化。

ETH Zürich 的 Hwangbo 等人（2019）给出了一个标志性的回应：用神经网络替代手工建模的执行器模型。他们从真实硬件数据中学习电机的输入输出关系，替换掉仿真器里的理想模型，然后在更真实的仿真中训练 RL 策略。ANYmal 四足机器人由此首次实现了后空翻等高动态动作的 sim-to-real 零样本迁移。

这是一个微妙但重要的转折：物理路线自身的演化方向已经开始指向数据驱动，手工建模在某些组件上到达了精度极限。

NVIDIA 的 Isaac Gym（2021-2022）把这个趋势推到了极致：在 GPU 上并行仿真 4096 个机器人，把训练时间从数天压缩到 20 分钟。ETH 的 Lee 和 Miki（2020-2022）用 teacher-student 架构让 ANYmal 完成了真实山地徒步。到这个阶段，物理路线实际上已经变成了”在物理仿真器中训练 RL”，物理模型的角色从”直接控制器”降级为”训练环境的基础设施”。

VLA 路线：从模仿到 transformer 到 foundation model

VLA 路线的起点是行为克隆（behavior cloning）：给定专家演示的观察-动作对，训练一个映射。这个方法简洁，但有三个根本问题：分布偏移导致累积误差、MSE 损失无法处理多模态动作分布（左手拿和右手拿都是正确答案，取均值就成了错误答案）、泛化能力极差。

2023 年，TRI 的 Diffusion Policy 用扩散模型替代直接回归，自然解决了多模态问题，在操控任务上比当时最好的方法提升了 46.9%（论文 claim）。但它不理解语言指令，仍然是单任务策略。

真正的转折是 Google 的 RT-1（2022）和 RT-2（2023）。RT-1 首次证明了 scaling law 在机器人控制中起作用：13 台机器人采集 17 个月、13 万条真实演示，训练出的 Transformer 策略可以在 700 多种任务上泛化。但 RT-1 的知识完全来自机器人数据，对”把适合儿童的饮料拿给我”这类需要常识推理的指令无能为力。

RT-2 做了一件看起来疯狂的事：把一个 550 亿参数的预训练视觉语言模型（PaLI-X）直接用机器人数据微调，让它在输出文本 token 的同时也能输出动作 token。动作被量化为 256 个离散值，编码成字符串，和普通单词一起预测。换言之，模型生成”0.312”这个 token 和它生成”apple”这个 token 的机制完全一样。

RT-2 的效果远超预期。它在操控任务上大幅提升（Google DeepMind 官方博客称零样本泛化提升 3 倍），还出现了涌现能力：它能理解训练时从未出现过的指令组合。因为互联网预训练给了它对物理世界的语义理解，这种理解是传统物理模型里没有的维度。

此后的演化主要在三条线上推进。Octo（2024）和 OpenVLA（2024）解决了开放性问题：OpenVLA 用 7B 参数的开源 VLM（DINOv2 + Llama-2）在公开基准上超越了 550 亿参数的 RT-2（Stanford 论文 claim +16.5% 绝对成功率，但两者的评测设置有差异，需谨慎解读）。Physical Intelligence 的 π₀（2024）解决了精度和频率问题：用 flow matching 替代离散 token 化，直接预测连续动作，一次性输出未来 50 步，支持 50Hz 高频控制和灵巧操控。

为什么暴力方法赢了

到这里，两条路线的故事已经讲完了。但这还只是表面。更深层的问题是：为什么一个不理解物理的模型，能在物理控制任务上打败精心建模物理的方法？

我认为答案和物理本身无关，和信息论有关。

物理建模的本质是一种压缩。牛顿定律用三个方程压缩了宏观物体的全部运动行为。刚体动力学方程用矩阵运算压缩了多关节机器人的状态转移。MPC 用代价函数和约束条件压缩了”好的运动”的定义。这种压缩在简单系统中非常高效：火箭的刚体力学 + 推力方程 + 空气动力学可以精确预测轨迹，SpaceX 的火箭回收至今仍在用凸优化做 powered descent guidance。

但压缩意味着丢信息。你选择用刚体模型的那一刻，就丢掉了柔性变形的信息。你选择用库仑摩擦模型的那一刻，就丢掉了摩擦力的温度依赖性和各向异性。你选择用单刚体简化全身动力学的那一刻，就丢掉了四肢惯量的影响。在简单系统中，这些丢失的信息确实不重要。但在复杂系统中，比如一个机器人在厨房里拿起一个装了水的杯子，涉及到的物理现象（杯子的材质、水的晃动、桌面的摩擦、手指的变形）远超任何手工模型能覆盖的范围。

更关键的是，这种压缩有一个天花板：它的精度由人的建模能力决定。更多的算力只能让你更快地求解方程，不能让方程本身变得更准确。你可以把 MPC 的计算频率从 50Hz 提升到 500Hz，但如果你的摩擦模型是错的，500Hz 只是让你更快地执行错误的动作。

VLA 做的事情本质上是放弃了这种压缩。它用一个参数量极大的通用函数逼近器（transformer），直接学习从感知到动作的映射。这个映射不是人定义的方程形式，而是数据定义的。所以它的精度上限不是某个工程师的建模能力，而是数据量和算力。只要这两者还能增长，精度就能继续提升。这就是”不饱和”：传统方法的精度曲线会趋于平坦（被建模精度限死），而 learned approach 的精度曲线在数据和算力足够的情况下可以持续上升。

这和深度学习在其他领域的胜出逻辑完全一致。传统 NLP 试图先理解语法和语义（压缩），LLM 放弃了这个中间步骤，直接做 next token prediction（不压缩）。传统计算机视觉试图先提取边缘、纹理、形状特征（压缩），CNN/ViT 直接从像素到标签端到端学习（不压缩）。每次”不压缩”打败”压缩”的故事，本质上都是同一件事：当数据和算力越过某个阈值后，通用函数逼近器的精度开始超过人工设计的压缩算法。

但这也意味着一件重要的事：在数据稀缺的领域，物理建模仍然是更好的选择。SpaceX 的火箭回收就是典型例子：火箭动力学可以精确建模（系统复杂度低），每次发射只提供一个数据点（数据丰度极低），所以凸优化比任何 learned approach 都更合适。判断一个控制问题该走哪条路线，关键看两个变量：系统复杂度（人工建模能压缩多少信息而不丢关键维度）和数据丰度（有多少数据让函数逼近器填满状态空间）。

物理路线自身也在趋近同一个答案

有意思的是，如果你仔细看物理路线的演化历史，它自身的发展方向也在印证这个判断。

2019 年，ETH 的 Hwangbo 用神经网络替代手工建模的执行器模型，承认了人工建模在执行器动力学上不够用。2022 年，Isaac Gym 让大规模 RL 训练成为可能，控制策略本身也从手工设计变成了从数据中学习。2024 年，Boston Dynamics 正式在 Spot 上引入 RL，官方博客写道：“These strategies work well when the controller’s model behaves similarly to the physical system…[RL gives] improved reliability on slippery and irregular surfaces.” 同年，电动 Atlas 宣布搭载 RL 和 foundation model。2025 年，使用 RL 的 Spot 跑出了 5.2m/s 的速度，是原始 MPC 控制器最高速度（1.6m/s）的三倍多。

物理路线的演化方向非常清楚：越来越多的组件从手工建模变成从数据学习。物理模型的角色从”控制器本身”逐步降级为”训练环境的基础设施”。VLA 只是把这个趋势推到了极端：连物理仿真器都不需要了，直接从真实世界的视频和演示数据中学习。

当前的真实图景：不是非此即彼

需要指出的是，2025 年的实际产业状态并不是”VLA 已经全面取代物理方法”。真实图景是一个从纯物理到纯学习的连续谱系：

Boston Dynamics 仍然保留了大量传统 MPC/WBC（全身控制）基础设施，RL 和 foundation model 是叠加在三十年物理控制积累之上的新组件。Unitree 的 G1/H1 主要用 RL 做运动控制，manipulation 端正在逐步引入 VLA。Figure AI 的 Helix 架构是一个典型的分层设计：System 2（7B VLM，7-9Hz）负责场景理解和语言指令，System 1（visuomotor policy，200Hz）负责具体肢体执行。Physical Intelligence 的 π₀ 是目前最接近纯 VLA 的方案，完全没有传统物理控制模块。

这个谱系也印证了前面的框架。运动控制（locomotion）的物理相对可建模（四点接触，刚体动力学为主），所以 RL + sim-to-real 已经足够好。操控任务（manipulation）涉及复杂接触、多样物体、柔性材料，物理建模的压缩损失太大，VLA 的优势更明显。所以大多数厂商选择了分层：locomotion 用 RL（物理仿真中训练），manipulation 用 VLA（从演示数据中学习）。

Tesla 的 FSD v12+ 是另一个有趣的参照。它在 2023 年底从传统 C++ 规则引擎转为端到端神经网络：多摄像头输入 → transformer → 直接输出转向/油门/刹车。中间没有显式的地图、规则引擎或物理模型。严格来说它是 VA（没有语言输入），但核心逻辑和 VLA 完全一致。它能走这条路的原因恰恰是：城市驾驶的环境复杂度极高（其他车辆的行为、行人意图、各种道路状况），人工建模必然丢失关键信息；同时 Tesla 有几百万辆车在路上跑，数据丰度极高。两个条件都满足，端到端方法就是自然选择。

VLA 的边界在哪里

VLA 并非万能。当前这条路线有几个公认的瓶颈，也是判断它适用范围的关键维度。

精度仍然是硬伤。VLA 在毫米级精度和精细力控上的表现仍然不够。GR-RL（2024）论文分析了大规模 VLA 在长时域精细操作上的失败案例，指出两个核心问题：人类演示数据本身的质量不均匀，以及演示分布和推理分布之间的偏移。对于需要 6-sigma 级可靠性的工业场景（精密装配、医疗手术），VLA 目前无法满足要求。

安全性和可解释性是另一个维度。传统 MPC 的行为是确定性的，约束满足有数学保证（KKT 条件），可以做形式化验证。VLA 的行为是涌现的，输入的微小扰动可能导致行为突变，没有内省接口，工业安全认证体系没有为黑盒神经网络准备好路径。Boston Dynamics 至今保留传统控制基础设施的一个重要原因就是：500Hz 的底层伺服控制和关节约束保障仍然由经典控制器负责，RL/VLA 只在更高层运行。

长时程规划能力也不足。当前 VLA 擅长单步或短时程任务（拿起杯子、折叠一件衣服），但对需要数十步的复合任务（整理房间、做一顿饭）能力有限。这个方向正在和 world model（世界模型）结合：用世界模型预测未来可能的状态，为 VLA 提供规划能力。UniSim（Google/MIT，2023）等工作也在探索用生成模型合成训练数据，减少真实数据采集成本。两条路线在这里是互补的。

一个判断框架

总结一下，判断一个机器人控制问题应该走物理路线还是学习路线，可以看两个变量：

系统复杂度：人工建模能以多低的信息损失压缩系统行为？如果系统的物理可以用少量方程精确描述（火箭、工业机械臂的运动学），物理建模是更高效的选择。如果系统涉及大量难以建模的交互（柔性接触、多样物体、非结构化环境），人工压缩必然丢失关键维度，learned approach 的上限更高。

数据丰度：有多少数据可以让通用函数逼近器学习状态空间？如果数据极度稀缺（火箭发射、深空探测），物理知识作为先验是不可替代的。如果数据丰富或可以大规模生成（自动驾驶车队、机器人遥操作、仿真环境），learned approach 能充分发挥不饱和的优势。

当前机器人领域正在经历的，是系统复杂度从低到高的应用逐步向 learned approach 迁移。工业机械臂的运动学控制（低复杂度）几乎不需要学习。四足运动（中等复杂度）已经从 MPC 迁移到 RL + sim-to-real。通用操控（高复杂度）正在向 VLA 迁移。随着数据基础设施的成熟和模型能力的提升，适合 learned approach 的问题域在不断扩大，两条路线的边界在持续移动。

这个框架也解释了为什么物理路线看起来优雅但碰壁，而暴力方法反而赢了。物理建模的优雅来自它的压缩效率，但压缩效率在复杂系统中恰恰是它的瓶颈。当数据和算力足够时，“不压缩”就是比”压缩”更好的策略，即使这看起来不够优雅。这个规律已经在 NLP、计算机视觉、自动驾驶中反复出现，机器人控制只是最新的一个验证。