视觉感知系统的跨界迁移

从让无人机不撞墙到让车不撞人

技术平台复用 2016-至今

视觉感知系统的跨界迁移

2016 年 3 月的 CES Asia 上, DJI 展出了一件特殊的产品。它不是一台完整的无人机,而是一个黑色双目摄像头模组和一块标注着 "GUIDANCE" 字样的白色处理单元。这套 DJI Guidance 视觉传感系统在功能上说得非常简单:给无人机一双眼睛,让它自己 "看见" 前方有什么障碍物。

这件事在此之前完全依赖飞手的视线。飞手通过遥控画面判断前方有树或建筑物,然后手动操作避开。Guidance 想做的事是把这部分视觉判断能力交给机器。它的核心是一对立体摄像头的视觉匹配算法:两颗摄像头拍下同一场景的两张图像,通过对比两张图中同一物体的位置差异计算深度,再用连续帧的深度图推算出飞行器自身的运动轨迹。

这种带三轴加速度计的立体视觉方案(一个双目模组加一个超声波接口,再连一个独立计算处理单元)被定位为一套面向开发者的系统,定价 $999。它不是为某一款具体产品定制研发的,而是一个可以嫁接在任何多旋翼飞行器上的标准感知模块。整套系统的设计理念在当时的无人机行业里算异类。几乎所有避障方案都依赖超声波或红外传感器,DJI 选择双目立体视觉意味着它押注了一条计算量更大、算法难度更高但扩展性更强的技术路线。

DJI Guidance 视觉传感系统实物 DJI Guidance 视觉传感系统,包括立体双目摄像头模组和处理单元。这是 DJI 视觉感知技术的第一个独立产品形态。来源:DJI 官方。

Guidance 在四个月后的 Phantom 4 上变成了集成功能

2016 年 4 月发布的 Phantom 4 是第一款自带前视避障的消费级无人机。在它之前,航拍无人机撞上障碍物就等于坠毁。在它之后,飞行器开始具备主动规避障碍物的能力。它的前向双目立体视觉传感器安装在机头前方,探测范围 0.7 到 15 米。三对摄像头输入的图像在飞控内实时计算,输出一个三维深度图,然后交给飞控决策是悬停、减速绕行还是上升跨越。

处理能力从独立模块(Guidance 那个白色盒子)集成到飞行控制器内,传感器模组缩小到一块可替换零件(Phantom 4 Forward Vision Module,零配件编号 P4-51-B),重量降到 86 克。从 "开发套件" 到 "产品零件" 的跨越只用了四个月。这个速度说明 DJI 在发布 Guidance 之前就已经在并行做集成化方案,Guidance 的战略角色更多是向开发者社区验证技术方向,而非纯粹的独立产品。

此后 DJI 每一次无人机产品的感知能力扩张,都是沿着 "视觉传感器覆盖更多方向" 的路径推进:

到这一步,视觉感知在 DJI 的消费级产品线上完成了一次从 "新手保护功能" 到 "全向导航基础设施" 的形态升级。从只有一个方向的 Guidance 开发套件到覆盖机身周围全部方向的 Mavic 3 Pro,DJI 用了六年时间把 "看得见" 变成无人机的基本能力。每一次迭代都不动底层立体视觉算法。同一对立体相机的视差计算逻辑从 2016 年到 2025 年没有根本变化,变化的是传感器数量、覆盖方向和计算平台的功耗。这反过来也说明了立体视觉这条路线的工程上限很高,一套算法可以在九年内支撑从单方向到六方向的产品演进,不需要替换底层技术路线。

同一套代码在 2016 年也被搬上了车

2016 年,和 Phantom 4 发布的同一年,DJI 内部一个约 10 人的小团队从飞控部门和视觉部门抽调出来,把一套双目视觉加融合定位系统装进了汽车。这个时间节点很关键。不是在无人机避障成熟之后才考虑做车,而是感知的底层算法本身对载体不敏感。只要能跑视觉里程计、能做深度图,这套系统既可以装在四旋翼上避开树枝,也可以装在前挡风玻璃后面避开行人。

大疆车载在之后的近十年里持续迭代了这套双目视觉方案。2023 年推出的第二代惯导立体双目视觉系统移除了摄像头之间的刚性连接杆,两颗摄像头的间距可以在 180 毫米到 400 毫米间灵活配置。取消刚性连接杆在无人机场景里不是问题(相机模组出厂即固定标定),但在汽车上是一个关键改变。车规级的安装空间和公差要求远远严格于无人机的机身设计,柔性的摄像头间距让车厂可以按自己的前装设计选择传感器布局。2024 年推出的 "激目" 系统则将激光雷达、双目、长焦单目和惯导组合成一体,据大疆声称,相比市面上普遍的 "激光雷达加前向摄像头" 方案可以降低 30% 到 40% 的成本。

宝骏云朵搭载灵犀智驾系统 宝骏云朵灵犀智驾版(2023),搭载大疆车载的立体双目智驾方案,定价 12.58 万元起。来源:中国经济网。

首个量产落地出现在 2022 年。上汽通用五菱在 KiWi EV 上搭载 "灵犀智驾系统",核心感知硬件就是大疆的立体双目摄像头。这套方案只靠两个图像传感器就实现了城市道路的 L2+ 级别辅助驾驶,包括自动泊车、车道保持和自适应巡航。据五菱和大疆的联合发布材料,灵犀智驾系统拥有 "立体视觉感知成像、在线自标定技术、实时路况在线建模" 三项核心能力。这三件事和无人机视觉定位系统(VPS)在做的工作在原理上是同一类:从视觉输入中推断出三维空间结构。差别在于应用场景从树冠层高度降到了地面,对识别对象的尺寸和距离要求不同。

还有一个细节。大疆车载团队在研发自动驾驶感知系统时,用到了无人机航测来采集自然交通数据。无人机在目标路段上方拍摄交通流,可以直接拍到车辆盲区的行人和非机动车,比车端采集的数据更完整,也不会干扰车上人员的正常驾驶行为。DJI 做过近两年的实践验证,发现无人机采集的数据对训练自动驾驶的 Corner Case 场景效果明显。这意味着 DJI 的感知技术在从无人机向汽车 "输出" 的同时,汽车业务也在反过来向无人机端 "输入" 新的数据采集方法论。

商业逻辑:一套研发投入在两个行业摊销

市面上大部分的 "技术迁移" 故事发生在同一品类的代际之间(手机上的人脸识别算法被用在新一代手机上),但 DJI 做的是跨品类迁移,从飞行器到汽车。两个行业的市场规模、竞争结构、监管模式和客户群体几乎没有重叠。

复用的前提是视觉感知算法的领域通用性。双目立体视觉的输入是两个图像传感器,输出是深度图,中间的处理环节是特征匹配和视差计算。这套流程不论在无人机还是在汽车上,数学原理完全一致。差异只体现在工程实现层面。无人机更关注重量和功耗(飞控的计算资源有限,传感器越轻越好),汽车更关注车规级认证(零下 40 度到零上 85 度的工作范围、功能安全等级要求严格)。

DJI Mavic 3 Pro 全向避障传感系统示意图 DJI Mavic 3 Pro 机身上的全向双目视觉传感器布局(前、后、左、右、上、下六方向)。来源:DJI 官方。

DJI 定期在年报和投资人沟通中将车载业务定义为 "第二曲线",但这个叙事框架一定程度上模糊了另一种更准确的理解。车载业务不是从零开始的冒险,而是对一套已经在无人机上累计运行了数亿飞行小时的感知系统的二次部署。这套系统的开发成本已经在消费级无人机的研发预算中摊销完毕,车载业务承担的边际开发成本远低于一个从零开始造感知系统的汽车供应商。大疆车载团队能从 10 人起步也说明了这一点。他们复用的不是 "无人机的组织架构",而是已经在飞控和视觉部门经过长期验证的算法能力和工程经验。

跨界复用的限制

这套跨界复用逻辑的边界也同样清晰。视觉感知系统可以迁移,但汽车业务的商业模式、客户关系和合规体系无法迁移。DJI 在消费电子上的强项是产品定义和供应链管理(直接面向终端用户的整机模式),而车载业务面对的是车企的 Tier 1 供应链。卖的是黑盒感知模组而非整套产品,合作模式是 DJI 提供感知方案加车厂做整车集成。收入来自研发服务费和量产后的按车 BOM 分成,决策权和利润分配逻辑与消费电子完全不同。截至 2025 年,大疆车载尚未成为 DJI 的主要收入来源。技术迁移的能力只是一个必要条件,商业条件和市场节奏是否匹配才是充分条件。

做一个简单的对照就能看出这个问题的复杂度。DJI 的视觉感知技术迁移路径和美国竞争对手 Skydio 形成了有趣的镜像。Skydio 从创业第一天就把视觉避障作为无人机的核心卖点,它的 3D 扫描建模能力在消费级市场一度领先 DJI。但 Skydio 没有选择将这套视觉技术迁移到汽车或机器人领域。它选择把无人机业务的军事和政府客户作为增长方向。两家公司在视觉感知技术上选择了完全不同的市场策略:DJI 用同一套感知算法打两个不同市场,Skydio 用同一套感知算法在一个市场里打垂直深度。哪种策略更优取决于所在行业的竞争烈度和自身供应链成本结构。Skydio 的定价是 DJI 同类产品的 3 到 5 倍,这意味着它必须做高附加值市场才能存活,跨品类摊薄研发成本对它来说没有那么紧迫。

DJI 还面临一个从无人机到汽车的迁移过程中几乎无法绕开的问题:数据合规。无人机上积累的视觉数据主要在室外空域拍摄,不涉及地面人员的身份信息。汽车上的感知数据采集则完全不同,路侧行人的面部信息、车辆牌照、沿途建筑都需要满足数据出境管控和脱敏要求。DJI 在中国路测采集的海量场景数据能否直接用于海外车型的智驾适配,是一个被地缘政治和行业监管双重约束的问题。技术迁移解决的是 "能不能做" 的问题,监管环境回答的是 "在哪里能做" 的问题。DJI 的感知技术从空中到地面的迁移路径在工程层面成立,但要让它成为可持续的业务,需要面对比工程更复杂的商业和合规挑战。

追问

  1. 大疆车载选择从双目视觉切入自动驾驶(而非多线激光雷达或高精地图),是因为双目视觉是无人机技术的自然延续。如果 DJI 最开始把资源投在激光雷达或毫米波雷达上,这条迁移路径还成立吗?一家公司的核心技术平台在多大程度上决定了它后来的业务选择?

  2. 灵犀智驾系统搭载的车型(KiWi EV、宝骏云朵)价格带在 8 到 15 万元,恰好是竞争最激烈、成本敏感度最高的区间。双目视觉方案的低成本优势在这个价格带成立。但如果 DJI 想进入 20 万元以上的市场,它对高性能计算方案(激光雷达加高精地图)的替代性还成立吗?

  3. DJI 把无人机上运行了数亿飞行小时的视觉感知系统用在汽车上,积累了独特的跨领域数据资产。但汽车行业的数据采集、标注和合规要求(数据不出境、车端脱敏)比无人机严格得多。从无人机到汽车的技术迁移是帮助还是阻碍了车载算法的本地化适配?

  4. 大疆车载的感知团队至今以 DJI 无人机视觉部门的老班底为核心,这是一种核心能力的自然延伸,还是限制了车载方案吸收汽车行业专用感知技术的能力?外部团队在什么条件下才会开始改变 DJI 车载的技术路线?