你家路由器每秒发出的无线电信号正在穿过墙壁、被家具反射、被你的身体吸收和散射。这些信号携带着关于空间和其中物体的丰富信息,只是我们通常只关心它承载的数据包,忽略了信号本身。
过去十多年,一批研究者一直在追问一个问题:如果我们认真分析这些信号的物理特征,能从中推断出多少关于人的信息?答案比大多数人想象的要多,但比科幻片描绘的要少。WiFi确实可以在某种意义上”看穿”墙壁,但它看到的不是高清视频画面,而是一组统计模式:人在不在、在做什么、呼吸频率多少。这个领域的真实状况,比流行叙事有趣得多,也复杂得多。
WiFi/RF感知能做到的事情,存在一个清晰的能力梯度。
最容易的是存在检测:房间里有没有人。这几乎是信号层面的trivial问题,因为人体的存在会显著改变多径信号的统计特征。稍难一些的是活动识别:走路、坐下、摔倒、做饭。再往上是呼吸和心率监测,利用胸腔微动引起的信号细微波动,精度可以做到呼吸频率误差在±1 BPM以内。更难的是骨骼姿态估计,从射频信号中恢复人体十几个关节的三维坐标。而最难的是静态场景重建,用无线电信号生成类似图像的空间映射。
这个梯度的排列,反映了一个底层物理规律:运动产生变化,变化容易检测。人走路时,信号的多普勒频移和多径变化非常明显;人静止不动时,和一件家具在信号层面几乎没有区别。呼吸检测之所以可行,正是因为胸腔还有微弱的周期性运动。而完全静态的场景重建,需要在强噪声中分离出极微弱的目标反射,难度高出几个量级。
这也解释了为什么WiFi感知领域绝大多数成果集中在人体活动识别和姿态估计上,而穿墙成像更多停留在概念验证阶段。
这条研究路线的起点可以追溯到2013年。MIT的Dina Katabi团队发表了Wi-Vi,用两根发射天线和一根接收天线,通过精巧的干扰消除方案将墙壁等静态物体的强反射消掉,只保留移动人体引起的信号变化。这是第一次在学术上令人信服地展示:用WiFi频段的射频信号可以穿墙检测人的存在和粗略位置。
Wi-Vi之后,同一团队快速迭代。WiTrack(2014)通过测量无线电反射的飞行时间实现了穿墙3D追踪,中位误差10-13厘米。RF-Capture(2015)更进一步,用约20根天线和不到2 GHz的带宽,从反射信号中恢复出人体的3D骨骼轮廓。这些早期系统的硬件基础是USRP软件定义无线电平台,单台设备价格在2000美元以上,配合定制天线阵列使用。它们证明了物理可行性,但离消费级产品有很远的距离。
与此同时,另一条路线在使用更廉价的商用网卡。Intel 5300和Atheros芯片可以导出CSI(Channel State Information,信道状态信息,一种对信道频率响应的逐频采样,后面会详细解释)。基于CSI的时序变化模式,研究者实现了走路、坐下、摔倒等活动的识别。这条路线的硬件门槛低得多,但CSI的提取依赖特定网卡型号和修改过的驱动程序,并非任何WiFi设备都能做到。
2018年是一个转折点。同样来自Katabi团队的RF-Pose在CVPR发表,用CNN从WiFi频段的FMCW雷达信号中估计人体2D骨骼姿态。它的关键创新在于训练方法:用摄像头和OpenPose为射频信号提供标注,训练完成后摄像头可以移除,系统仅依靠射频信号工作,包括穿墙场景。RF-Pose3D同年扩展到3D骨骼和多人场景。这种交叉模态监督的范式影响深远,解决了射频信号无法由人直接标注的根本困难。
近几年的趋势是向实用化和标准化推进。GoPose(2021)用商用WiFi设备实现了14关节的3D骨骼估计,平均误差约4.5厘米。SenseFi(2023)提供了首个开源的WiFi CSI感知benchmark库。WiMANS(2024)发布了首个多用户同时活动感知数据集。CSI-Bench(2025)则在26个真实环境中采集了460多个小时的数据,覆盖跌倒检测、呼吸监测、定位等多个任务。研究社区正在从单一论文的能力展示,转向系统性的评估和泛化能力验证。
十年的研究积累,成果看起来令人印象深刻。但一个明显的事实是:WiFi穿墙感知至今没有出现消费级的大规模应用。原因有几层。
第一层是硬件碎片化和名称混淆。CSI的提取在标准WiFi协议中并不是开放接口。早期研究大量依赖Intel 5300网卡(已停产十年),或者需要刷入定制固件的Atheros芯片,或者价格不菲的USRP软件定义无线电。近年兴起的ESP32-S3虽然只要几美元一片,但它是一个2.4 GHz单天线的IoT芯片,和家用路由器是两回事。更重要的是,RF-Pose等标志性工作使用的其实是FMCW雷达而非标准WiFi信号,只是工作在WiFi频段。这些硬件在论文中都被归入”WiFi感知”的范畴,但在工程可部署性上有本质差异。绝大多数声称”WiFi感知”的论文,用的硬件都不是你家里正在工作的那台路由器。
第二层是环境泛化。CSI对环境布局极度敏感。换一个房间、移动一件家具、开一扇门,多径信号的模式都会改变,训练好的模型可能立刻失效。大多数实验在受控实验室中完成,固定的房间、少量受试者、预定义的动作列表。到真实家庭环境中,性能会大幅下降。跨域泛化是目前公认的最大技术挑战。
第三层是多人场景。多个人同时存在时,各自的反射信号叠加在一起,分离个体非常困难。WiMANS数据集的出现说明研究社区已经意识到这个问题,但解决方案仍在早期探索阶段。
第四层是隐私张力。WiFi感知常被定位为摄像头的隐私友好替代方案,因为它不采集图像。但穿墙感知能力本身恰恰引发了新型的隐私担忧。如果邻居的路由器能感知你在家里的活动,这到底是保护了隐私还是侵犯了隐私?这种张力目前没有简单的答案。
前面讲了WiFi感知能做什么、做到了什么、为什么产品化困难。这一节回到物理层面,解释这些能力和限制背后的信号机制。如果你只关心应用前景,可以跳过这一节。
路由器发出一个信号,它不会沿一条直线到达你的手机。信号会被墙壁、地板、天花板、家具、人体反射和散射,沿着不同路径到达接收端。每条路径的长度不同,所以到达时间不同;每次反射会改变信号的强度和相位。接收端看到的,是所有这些路径上信号副本的叠加。
在通信领域,这是一个麻烦。不同路径的信号互相干涉,有些频率上信号增强,有些频率上信号几乎抵消,导致所谓的频率选择性衰落。WiFi协议花了大量工程来对抗这个问题。
但从感知的角度看,这些多径恰恰是有用的信号。每一条反射路径都编码了环境中某个物体的位置、大小和材质信息。如果环境中有什么东西移动了,比如一个人从客厅走向厨房,那么经过这个人反射的路径就会改变延迟、幅度和相位,整体的信道响应随之变化。问题变成了:能否以足够的分辨率测量这个信道响应,并从中提取出有用的空间信息。
这就引出了CSI这个核心概念。CSI的本质是对信道传输函数的逐频采样。对于每一对发射天线和接收天线,在每一个OFDM子载波频率k上,信道可以用一个复数 H(k) 来描述,它包含幅度和相位两个分量。幅度告诉你这个频率上信号被衰减了多少,相位告诉你信号经历了多大的延迟。把所有子载波上的 H(k) 排列起来,就得到了信道频率响应的一个离散采样。
具体有多少个采样点,取决于硬件。早期研究中广泛使用的Intel 5300网卡,在20 MHz带宽下每对天线报告30个子载波的CSI,3×3 MIMO配置下总共270个复数值。后来的Atheros芯片在40 MHz带宽下可以提供114个子载波,频域分辨率大约是Intel 5300的四倍。
这里有必要解释一下CSI和普通信号强度(RSSI)的区别。RSSI是绝大多数WiFi设备都能报告的一个标量值,它把整个信道的接收功率压缩成一个数字。一个人走动时,某些子载波上的信号可能因为构造性干涉而增强,另一些因为破坏性干涉而减弱,但RSSI对这些变化做了平均,大量信息在平均过程中丢失。CSI保留了逐子载波的频率选择性结构,为下游的感知算法提供了丰富得多的输入。这就是为什么基于CSI的感知精度远超基于RSSI的方法。
WiFi使用的OFDM调制天然适合信道感知。OFDM把可用带宽B分成N个窄带子载波,每个子载波上的信道几乎是平坦的,因此H(k)是一个干净的信道采样。所有子载波合在一起,就给出了信道频率响应的离散傅里叶采样。
这里有一个关键的物理限制:距离分辨率 Δr ≈ c/(2B),其中c是光速,B是总带宽。WiFi在20 MHz带宽下的距离分辨率约为7.5米,80 MHz下约1.9米,160 MHz(WiFi 6)下约0.94米。作为对比,一个4 GHz带宽的FMCW毫米波雷达的距离分辨率约为3.75厘米。这个差距是WiFi感知在空间分辨率上的根本瓶颈,更多的子载波可以改善信道估计的精度,但总带宽决定了分辨率的上限。
MIMO提供的是另一个维度的分辨率:角度分辨。多根发射和接收天线构成一个虚拟天线阵列,每对天线从略有不同的空间视角观察同一个反射场景。通过波束成形或空间谱估计算法(如MUSIC、ESPRIT),可以估计反射信号的到达角度。天线越多、阵列孔径越大,角度分辨率越高。一个3×3 MIMO系统提供9个独立的空间信道,虽然比相控阵雷达的几十上百个阵元少得多,但已经足以在某些场景下区分不同方向上的反射源。
理解了信号的测量方式之后,穿墙感知的核心困难就很清楚了。墙壁是一个面积大、距离近、表面光滑的反射体,它反射的信号强度比人体反射的信号高出三到五个数量级。这种被称为wall flash的强反射主导了接收端看到的 H(f),人体的微弱反射被淹没在其中。
这个问题在通信中可以忽略,因为通信只关心传输数据,不关心信道是由墙壁还是人体贡献的。但在感知中,它是核心挑战:你要检测的目标(人体)的信号贡献被你不关心的背景(墙壁、家具)压制了几个数量级。
前面提到的Wi-Vi用了一个精巧的方案来解决这个问题。它利用MIMO发射零陷(transmit nulling)技术:调整两根发射天线的信号幅度和相位,使得所有静态物体在接收端的反射恰好相消。具体来说,如果静态场景中TX1到RX的信道是h₁,TX2到RX的信道是h₂,那么令TX2的发射信号为 −(h₁/h₂) 倍的TX1信号,则静态分量在接收端相加为零。校准完成后,接收端残余的信号就只来自移动中的人体。通信中用这个技术来避免对邻近接收机的干扰,Wi-Vi把它反过来用,消除的是整个静态场景。
Wi-Vi的方案揭示了一个更普遍的规律:WiFi感知天然擅长检测运动,而天然不擅长感知静态场景。
一个移动的人持续改变多径信号的结构。反射路径的长度在变,产生多普勒频移(一个以1 m/s速度走路的人在5 GHz下造成约33 Hz的频移);反射的幅度和相位也在变。这些时变特征很容易通过时域差分、高通滤波或多普勒谱分析从静态背景中分离出来。静态背景在差分中被消掉了,只剩下运动分量。
一个静止不动的人,反射信号是恒定的,和墙壁、家具的反射在性质上没有区别。时域差分和多普勒滤波对它无效。唯一的区分手段是利用人体和家具在空间形状、位置、反射率上的绝对差异,但这需要WiFi信号难以提供的精细空间分辨率。
呼吸检测处于两者之间的有趣地带。正常呼吸引起的胸腔位移大约在1到12毫米之间。在5 GHz频率下(波长60毫米),5毫米的胸壁位移会导致往返路径长度变化10毫米,对应约60度的相位偏移。这个周期性的微小相位变化(频率在0.2到0.33 Hz之间,即每分钟12到20次呼吸)可以通过精心设计的相位追踪算法检测出来。但如果一个人连呼吸引起的胸腔运动都不足以被检测到(例如呼吸极浅或测量距离太远导致信噪比不够),那他在信号层面就和一把椅子没有区别。
这也是动态感知和静态场景重建之间难度差异的根本原因。动态感知可以利用时间维度上的变化来提取信号,相当于有一个免费的背景消除机制;静态场景重建则需要在绝对的信道测量中分辨出每个物体的空间贡献,要求的带宽和天线数量远超WiFi的能力范围。
理解了技术能力的边界和商业化的阻力,就能更清楚地判断哪些应用可能先走出实验室。最可能先落地的是那些对精度要求相对宽松、环境相对固定、且有明确价值主张的场景。
老人看护中的跌倒检测和存在监测是一个典型候选。它只需要检测有没有人、人有没有摔倒这样的粗粒度信息,对骨骼精度没有要求;部署环境通常是固定的卧室或客厅,环境泛化问题相对可控;而且它解决的是一个真实的、高价值的痛点。类似的还有睡眠呼吸监测,利用呼吸引起的信号微动来追踪睡眠质量,部署位置固定,场景单一。
智能家居中的房间级占用检测也有商用潜力:知道哪个房间有人、哪个房间没人,用来联动灯光和空调。这比活动识别简单得多,对信号分辨率的要求也低得多。
相比之下,高精度的穿墙姿态估计、实时多人追踪这些能力,在可预见的未来更可能停留在专用场景(安防、救援)而非消费级市场。
2025年IEEE批准了802.11bf标准,这是WiFi感知领域一个重要的里程碑。它在PHY和MAC层定义了支持感知功能的协议修改,覆盖sub-7GHz和60GHz频段,并且向后兼容802.11ax和802.11be。
802.11bf的意义在于:它让WiFi芯片厂商有了一个统一的感知接口规范。未来的WiFi芯片如果实现了这个标准,就可以原生提供CSI数据,无需刷固件、无需特定网卡型号。这解决的是硬件碎片化这一层问题。
但标准的批准和芯片的量产之间有时间差,芯片量产和消费者购买新路由器之间又有时间差,新路由器的普及和应用生态的建立之间还有时间差。802.11bf是产品化基础设施的起点,它为WiFi感知从学术走向工程提供了必要条件,但仅凭一个标准,还远远不够。环境泛化、多人场景、隐私框架这些问题,标准本身并不解决。
WiFi穿墙感知是一个物理上已被充分验证、工程上尚未充分准备、市场上仍在等待条件成熟的领域。它的故事,更像是从基础研究到产业落地的典型长周期过程,而非一夜之间改变世界的技术奇迹。