科研与技术前沿产业与竞争

为什么不懂物理的机器人反而赢了

最近一年,机器人领域发生了一件反直觉的事情。

Unitree(宇树)的 G1 在各种场景中完成复杂动作,Figure AI 的机器人在 BMW 工厂连续工作了十个月,Physical Intelligence 的 π₀ 可以折叠衣物和组装物品。而 Boston Dynamics 花了三十年精心打磨的 Atlas,在 2024 年也开始引入强化学习和 foundation model 组件。

这些新一代机器人的共同特征是:它们不再试图理解物理。

传统机器人控制的核心假设是”先建模物理,再控制机器人”。你需要写出刚体动力学方程,建模关节摩擦、地面接触力、执行器非线性,然后用 MPC(模型预测控制)或轨迹优化来求解最优控制序列。这个路线优雅、可解释、有数学保证。

VLA(Vision-Language-Action)走了一条完全不同的路。它把一个预训练好的视觉语言模型(比如 Google 的 PaLI 或 Meta 的 Llama)拿过来,在机器人操作数据上微调,让模型直接从摄像头图像和语言指令预测下一步动作。本质上就是 next token prediction,和 ChatGPT 生成文字没有本质区别,只是输出的 token 变成了关节角度。

一个显而易见的问题是:一个连牛顿定律都没学过的模型,凭什么能控制机器人?

两条路线走了三十年

要回答这个问题,需要先看看两条路线各自走过了什么路,分别在哪里碰壁。

物理路线:从方程到优化到仿真

物理路线的起点可以追溯到 1970 年代。Vukobratović 提出了 ZMP(零力矩点) 判据:只要外力合力矩落在支撑面内,机器人就不会倒。HONDA 的 ASIMO 就是基于这个理论设计的。代价是机器人走路极慢,因为 ZMP 本质上要求准静态平衡。

Marc Raibert 在 1986 年的 MIT Leg Lab 突破了这个限制。他的关键洞察是:动量本身是平衡资源,可以被利用而非回避。他把运动分解成三个解耦子问题(弹跳高度、前进速度、躯干姿态),每个用简单的 PD 控制器解决。这开创了动态平衡的研究,但控制律依赖手工推导的简化模型,难以扩展到高自由度机器人。

2010 年代,Todorov 等人把轨迹优化变成了 实时 MPC,用 DDP(Differential Dynamic Programming)在当前状态附近做二阶展开,首次实现了 28 自由度人形机器人的 50Hz 实时控制。MIT 的 Di Carlo 和 Kim 进一步把 MPC 凸化为二次规划问题,计算量压缩到 1 毫秒以内,成为后来工业界(包括 Boston Dynamics 的 Spot)的标准工具。

到这里,物理路线的第一个瓶颈出现了:建模精度。MPC 的效果直接取决于物理模型的准确性,而现实世界中有太多东西难以精确建模。电机的非线性、传动机构的摩擦、足端与地面的接触力,这些都需要大量手工调试,而且模型参数会随温度、磨损而变化。

ETH Zürich 的 Hwangbo 等人(2019) 给出了一个标志性的回应:用神经网络替代手工建模的执行器模型。他们从真实硬件数据中学习电机的输入输出关系,替换掉仿真器里的理想模型,然后在更真实的仿真中训练 RL 策略。ANYmal 四足机器人由此首次实现了后空翻等高动态动作的 sim-to-real 零样本迁移。

这是一个微妙但重要的转折:物理路线自身的演化方向已经开始指向数据驱动,手工建模在某些组件上到达了精度极限。

NVIDIA 的 Isaac Gym(2021-2022) 把这个趋势推到了极致:在 GPU 上并行仿真 4096 个机器人,把训练时间从数天压缩到 20 分钟。ETH 的 Lee 和 Miki(2020-2022) 用 teacher-student 架构让 ANYmal 完成了真实山地徒步。到这个阶段,物理路线实际上已经变成了”在物理仿真器中训练 RL”,物理模型的角色从”直接控制器”降级为”训练环境的基础设施”。

VLA 路线:从模仿到 transformer 到 foundation model

VLA 路线的起点是行为克隆(behavior cloning):给定专家演示的观察-动作对,训练一个映射。这个方法简洁,但有三个根本问题:分布偏移导致累积误差、MSE 损失无法处理多模态动作分布(左手拿和右手拿都是正确答案,取均值就成了错误答案)、泛化能力极差。

2023 年,TRI 的 Diffusion Policy 用扩散模型替代直接回归,自然解决了多模态问题,在操控任务上比当时最好的方法提升了 46.9%(论文 claim)。但它不理解语言指令,仍然是单任务策略。

真正的转折是 Google 的 RT-1(2022)RT-2(2023)。RT-1 首次证明了 scaling law 在机器人控制中起作用:13 台机器人采集 17 个月、13 万条真实演示,训练出的 Transformer 策略可以在 700 多种任务上泛化。但 RT-1 的知识完全来自机器人数据,对”把适合儿童的饮料拿给我”这类需要常识推理的指令无能为力。

RT-2 做了一件看起来疯狂的事:把一个 550 亿参数的预训练视觉语言模型(PaLI-X)直接用机器人数据微调,让它在输出文本 token 的同时也能输出动作 token。动作被量化为 256 个离散值,编码成字符串,和普通单词一起预测。换言之,模型生成”0.312”这个 token 和它生成”apple”这个 token 的机制完全一样。

RT-2 的效果远超预期。它在操控任务上大幅提升(Google DeepMind 官方博客称零样本泛化提升 3 倍),还出现了涌现能力:它能理解训练时从未出现过的指令组合。因为互联网预训练给了它对物理世界的语义理解,这种理解是传统物理模型里没有的维度。

此后的演化主要在三条线上推进。Octo(2024)OpenVLA(2024) 解决了开放性问题:OpenVLA 用 7B 参数的开源 VLM(DINOv2 + Llama-2)在公开基准上超越了 550 亿参数的 RT-2(Stanford 论文 claim +16.5% 绝对成功率,但两者的评测设置有差异,需谨慎解读)。Physical Intelligence 的 π₀(2024) 解决了精度和频率问题:用 flow matching 替代离散 token 化,直接预测连续动作,一次性输出未来 50 步,支持 50Hz 高频控制和灵巧操控。

为什么暴力方法赢了

到这里,两条路线的故事已经讲完了。但这还只是表面。更深层的问题是:为什么一个不理解物理的模型,能在物理控制任务上打败精心建模物理的方法?

我认为答案和物理本身无关,和信息论有关。

物理建模的本质是一种压缩。牛顿定律用三个方程压缩了宏观物体的全部运动行为。刚体动力学方程用矩阵运算压缩了多关节机器人的状态转移。MPC 用代价函数和约束条件压缩了”好的运动”的定义。这种压缩在简单系统中非常高效:火箭的刚体力学 + 推力方程 + 空气动力学可以精确预测轨迹,SpaceX 的火箭回收至今仍在用凸优化做 powered descent guidance。

但压缩意味着丢信息。你选择用刚体模型的那一刻,就丢掉了柔性变形的信息。你选择用库仑摩擦模型的那一刻,就丢掉了摩擦力的温度依赖性和各向异性。你选择用单刚体简化全身动力学的那一刻,就丢掉了四肢惯量的影响。在简单系统中,这些丢失的信息确实不重要。但在复杂系统中,比如一个机器人在厨房里拿起一个装了水的杯子,涉及到的物理现象(杯子的材质、水的晃动、桌面的摩擦、手指的变形)远超任何手工模型能覆盖的范围。

更关键的是,这种压缩有一个天花板:它的精度由人的建模能力决定。更多的算力只能让你更快地求解方程,不能让方程本身变得更准确。你可以把 MPC 的计算频率从 50Hz 提升到 500Hz,但如果你的摩擦模型是错的,500Hz 只是让你更快地执行错误的动作。

VLA 做的事情本质上是放弃了这种压缩。它用一个参数量极大的通用函数逼近器(transformer),直接学习从感知到动作的映射。这个映射不是人定义的方程形式,而是数据定义的。所以它的精度上限不是某个工程师的建模能力,而是数据量和算力。只要这两者还能增长,精度就能继续提升。这就是”不饱和”:传统方法的精度曲线会趋于平坦(被建模精度限死),而 learned approach 的精度曲线在数据和算力足够的情况下可以持续上升。

这和深度学习在其他领域的胜出逻辑完全一致。传统 NLP 试图先理解语法和语义(压缩),LLM 放弃了这个中间步骤,直接做 next token prediction(不压缩)。传统计算机视觉试图先提取边缘、纹理、形状特征(压缩),CNN/ViT 直接从像素到标签端到端学习(不压缩)。每次”不压缩”打败”压缩”的故事,本质上都是同一件事:当数据和算力越过某个阈值后,通用函数逼近器的精度开始超过人工设计的压缩算法。

但这也意味着一件重要的事:在数据稀缺的领域,物理建模仍然是更好的选择。SpaceX 的火箭回收就是典型例子:火箭动力学可以精确建模(系统复杂度低),每次发射只提供一个数据点(数据丰度极低),所以凸优化比任何 learned approach 都更合适。判断一个控制问题该走哪条路线,关键看两个变量:系统复杂度(人工建模能压缩多少信息而不丢关键维度)和数据丰度(有多少数据让函数逼近器填满状态空间)。

物理路线自身也在趋近同一个答案

有意思的是,如果你仔细看物理路线的演化历史,它自身的发展方向也在印证这个判断。

2019 年,ETH 的 Hwangbo 用神经网络替代手工建模的执行器模型,承认了人工建模在执行器动力学上不够用。2022 年,Isaac Gym 让大规模 RL 训练成为可能,控制策略本身也从手工设计变成了从数据中学习。2024 年,Boston Dynamics 正式在 Spot 上引入 RL,官方博客写道:“These strategies work well when the controller’s model behaves similarly to the physical system…[RL gives] improved reliability on slippery and irregular surfaces.” 同年,电动 Atlas 宣布搭载 RL 和 foundation model。2025 年,使用 RL 的 Spot 跑出了 5.2m/s 的速度,是原始 MPC 控制器最高速度(1.6m/s)的三倍多。

物理路线的演化方向非常清楚:越来越多的组件从手工建模变成从数据学习。物理模型的角色从”控制器本身”逐步降级为”训练环境的基础设施”。VLA 只是把这个趋势推到了极端:连物理仿真器都不需要了,直接从真实世界的视频和演示数据中学习。

当前的真实图景:不是非此即彼

需要指出的是,2025 年的实际产业状态并不是”VLA 已经全面取代物理方法”。真实图景是一个从纯物理到纯学习的连续谱系:

Boston Dynamics 仍然保留了大量传统 MPC/WBC(全身控制)基础设施,RL 和 foundation model 是叠加在三十年物理控制积累之上的新组件。Unitree 的 G1/H1 主要用 RL 做运动控制,manipulation 端正在逐步引入 VLA。Figure AI 的 Helix 架构 是一个典型的分层设计:System 2(7B VLM,7-9Hz)负责场景理解和语言指令,System 1(visuomotor policy,200Hz)负责具体肢体执行。Physical Intelligence 的 π₀ 是目前最接近纯 VLA 的方案,完全没有传统物理控制模块。

这个谱系也印证了前面的框架。运动控制(locomotion)的物理相对可建模(四点接触,刚体动力学为主),所以 RL + sim-to-real 已经足够好。操控任务(manipulation)涉及复杂接触、多样物体、柔性材料,物理建模的压缩损失太大,VLA 的优势更明显。所以大多数厂商选择了分层:locomotion 用 RL(物理仿真中训练),manipulation 用 VLA(从演示数据中学习)。

Tesla 的 FSD v12+ 是另一个有趣的参照。它在 2023 年底从传统 C++ 规则引擎转为端到端神经网络:多摄像头输入 → transformer → 直接输出转向/油门/刹车。中间没有显式的地图、规则引擎或物理模型。严格来说它是 VA(没有语言输入),但核心逻辑和 VLA 完全一致。它能走这条路的原因恰恰是:城市驾驶的环境复杂度极高(其他车辆的行为、行人意图、各种道路状况),人工建模必然丢失关键信息;同时 Tesla 有几百万辆车在路上跑,数据丰度极高。两个条件都满足,端到端方法就是自然选择。

VLA 的边界在哪里

VLA 并非万能。当前这条路线有几个公认的瓶颈,也是判断它适用范围的关键维度。

精度仍然是硬伤。VLA 在毫米级精度和精细力控上的表现仍然不够。GR-RL(2024) 论文分析了大规模 VLA 在长时域精细操作上的失败案例,指出两个核心问题:人类演示数据本身的质量不均匀,以及演示分布和推理分布之间的偏移。对于需要 6-sigma 级可靠性的工业场景(精密装配、医疗手术),VLA 目前无法满足要求。

安全性和可解释性是另一个维度。传统 MPC 的行为是确定性的,约束满足有数学保证(KKT 条件),可以做形式化验证。VLA 的行为是涌现的,输入的微小扰动可能导致行为突变,没有内省接口,工业安全认证体系没有为黑盒神经网络准备好路径。Boston Dynamics 至今保留传统控制基础设施的一个重要原因就是:500Hz 的底层伺服控制和关节约束保障仍然由经典控制器负责,RL/VLA 只在更高层运行。

长时程规划能力也不足。当前 VLA 擅长单步或短时程任务(拿起杯子、折叠一件衣服),但对需要数十步的复合任务(整理房间、做一顿饭)能力有限。这个方向正在和 world model(世界模型)结合:用世界模型预测未来可能的状态,为 VLA 提供规划能力。UniSim(Google/MIT,2023) 等工作也在探索用生成模型合成训练数据,减少真实数据采集成本。两条路线在这里是互补的。

一个判断框架

总结一下,判断一个机器人控制问题应该走物理路线还是学习路线,可以看两个变量:

系统复杂度:人工建模能以多低的信息损失压缩系统行为?如果系统的物理可以用少量方程精确描述(火箭、工业机械臂的运动学),物理建模是更高效的选择。如果系统涉及大量难以建模的交互(柔性接触、多样物体、非结构化环境),人工压缩必然丢失关键维度,learned approach 的上限更高。

数据丰度:有多少数据可以让通用函数逼近器学习状态空间?如果数据极度稀缺(火箭发射、深空探测),物理知识作为先验是不可替代的。如果数据丰富或可以大规模生成(自动驾驶车队、机器人遥操作、仿真环境),learned approach 能充分发挥不饱和的优势。

当前机器人领域正在经历的,是系统复杂度从低到高的应用逐步向 learned approach 迁移。工业机械臂的运动学控制(低复杂度)几乎不需要学习。四足运动(中等复杂度)已经从 MPC 迁移到 RL + sim-to-real。通用操控(高复杂度)正在向 VLA 迁移。随着数据基础设施的成熟和模型能力的提升,适合 learned approach 的问题域在不断扩大,两条路线的边界在持续移动。

这个框架也解释了为什么物理路线看起来优雅但碰壁,而暴力方法反而赢了。物理建模的优雅来自它的压缩效率,但压缩效率在复杂系统中恰恰是它的瓶颈。当数据和算力足够时,“不压缩”就是比”压缩”更好的策略,即使这看起来不够优雅。这个规律已经在 NLP、计算机视觉、自动驾驶中反复出现,机器人控制只是最新的一个验证。

鸭哥每日手记

日更的深度AI新闻和分析