开会的时候聊到某个语音助手,桌上每个人的手机和音箱都亮了。Alexa、Siri、Google,只要你说了它的名字,它就以为你在叫它。做过智能音箱的人都知道这件事。每个人也都见过。
WWDC26 刚结束。这次 Apple 把 Siri 做了一次彻底重构:独立 App、多轮对话、屏幕感知,由 Apple Intelligence 和 Gemini 联合驱动。但一些细心的观众注意到了另一个细节。直播音轨里,主持人每次说出 “Siri” 的时候,声音就闷了一点点。用频谱看,3 到 6 千赫这一段压得很低,一个 notch filter 把这段频率主动削掉了。不是音质优化的操作。它要达成的效果是:台上的主持人每说一次 Siri,观众家里的 HomePod 和 iPhone 不会跟着亮起来。
这听起来像是 Apple 的工程先见。但这条技术路线真正的起点不在 Cupertino。在 2014 年,一个 Aaron Paul 的 Xbox 广告里。而且它每一步的推进,都不是因为有人想得更远,是因为有人摔得够重。
2014 年 6 月,微软请《绝命毒师》里的 Aaron Paul 拍了一支 Xbox One 广告。Paul 坐在沙发上,对着电视说 “Xbox On” 和 “Xbox, play Titanfall”,展示 Kinect 语音控制功能。这支广告推广的恰好是无 Kinect 的降价版 Xbox One,而真正拥有 Kinect 的玩家看完广告后发现,自己的游戏机自己开了机。Twitter 和 NeoGAF 上炸了锅,Kotaku 当时的报道收集了海量用户吐槽。微软没有公开回应。
Xbox 工程师设计了语音唤醒,广告团队拍了展示语音唤醒的广告,两边在各自领域都做了正确的事。问题在于没有人意识到这两件事会产生交集。
三年之后,这个交集变成了整个语音助理行业的日常。
2017 年 1 月,达拉斯一个六岁女孩对家里的 Amazon Echo Dot 说了句 “can you play dollhouse with me and get me a dollhouse?”,Alexa 就下了单。女孩的父母捐掉了 dollhouse,同时给 Alexa 加了购买确认码。事情到这里本可以结束,但圣地亚哥 CW6 新闻把这则趣闻搬上了电视。主播 Jim Patton 说 “I love the little girl, saying ‘Alexa, order me a dollhouse.’” 节目播出后,观众家里的 Echo 再一次触发了 dollhouse 订单。一条报道 Alexa 误购的新闻,在报道中又制造了新一轮误购。
2 月,Google 自己的 Super Bowl 广告翻车了。Google Home 的广告里,演员说 “OK Google, turn on the hall lights” 和 “OK Google, turn off the music”,观众家里的 Google Home 亮成一片,有些设备乖乖执行了关灯指令。和 Aaron Paul 的故事一样,这是自家广告触发自家设备,同一个公司的左手打了右手。
9 月,South Park 第 21 季首映。Cartman 在剧中反复喊 “Alexa, add…to my shopping list” 和 “OK Google”,全美观众的购物清单里出现了各种 South Park 式的脏话。Twitter 上有人发帖:“我的 Alexa 响了十五次,只能拔电源。”
这些事件都是意外。Burger King 不是。
2017 年 4 月 12 日,Burger King 在全美电视上播了一支 15 秒广告。一名 BK 员工站在柜台后,凑近镜头,一字一顿地说:“OK Google, what is the Whopper burger?” 任何在电视音箱范围内的 Google Home 和 Android 手机都会亮起指示灯,语音念出 Whopper 的维基百科条目第一段。Burger King 在广告上线前已经编辑了维基百科页面,把描述改成了广告文案。
这个计划的脆弱性在几分钟内就暴露了。互联网用户开始维基百科编辑战,配料先后被改成”氰化物”“鼠肉”“脚趾甲”,条目开头被改成 “The Whopper is the worst hamburger product sold by the international fast-food restaurant chain Burger King”。在维基页面锁编辑之前,确实有人让 Google Home 念出了这些版本。
Google 的反应比想象中快。广告上线不到三小时,Google 在服务端实施了声学指纹屏蔽。具体做法:获取广告中演员说 “OK Google, what is the Whopper burger?” 的原始音频片段,在服务器端注册声学指纹。当 Google Home 收到这段特定录音触发的查询时,设备虽然仍会被唤醒、指示灯会闪烁,但随即安静休眠,不给任何语音回应。Google 屏蔽的是这段具体的音频录制本身,真人说出同样内容不受影响。
Burger King 随后换了一个演员用不同语调重新配音试图绕过指纹,Google 同样屏蔽了它。广告存活总计约三小时。但 Burger King 从媒体报道中获得了约 1.35 亿美元的赚得媒体价值,并在戛纳狮子奖获了奖。广告本身失败了,争议成功了。
经此一事,“广播会触发语音助手”从一个偶发事故变成了可以被故意利用的攻击面。在这之前,各家对误触发的回应是事后修补;在这之后,防唤醒进入了工程学范畴。
防唤醒技术有一条明确的演化线:论文没有走到产品前面。每一次防御方案的上线,都是产品先挨了一巴掌。
最早社区逆向出来的方案是 notch filter。2017 年初,Reddit 用户 aspyhackr 发帖说,他注意到 Amazon 广告里的 “Alexa” 声音听起来不太一样,频谱分析后发现 3 到 6 千赫这一段严重衰减。他进一步做了实验:对普通录音中的 “Alexa” 用 Audacity 做 band-stop filter 削掉 4 到 5 千赫,结果 Echo 就不再唤醒。Amazon 从未确认过这个机制,但 Bloomberg、The Verge 和 PCMag 都引用了这个社区发现。
Notch filter 的问题也很清楚。这一段在人耳的可听范围内,削得太多语音发闷。过一遍电视扬声器、蓝牙传输、流媒体压缩后也不一定稳定。最关键的是,一旦成为固定规则,任何人都能测试和绕过。Burger King 事件就是最好的证据。
声学指纹是更成熟的方案。Amazon 没有依赖 notch。2018 年 Super Bowl,Amazon 自己的 Alexa 广告里反复出现 “Alexa” 和 “Alexa, play…”,但全美 Echo 几乎无一误触发。2019 年初,Amazon Science 发表了官方文章详细解释了技术原理:广告音频在播出前先提取指纹并存入数据库,设备端本地匹配已知广告指纹,云端同步维护更大指纹库。如果是未知媒体来源,当多个家庭同时上传相似的音频,系统会动态判定为 media event 并静默处理。
Google 的路线类似但更主动。它的多项专利描述了给包含唤醒词的音频嵌入水印:一种人耳不可闻、机器可检测的扩频信号,明确标记”这是媒体内容,不要响应”。水印相比指纹的好处是检测复杂度固定,不需要维护不断膨胀的指纹库。Amazon 在 2019 年后的音频水印研究也走了这个方向,把它当作指纹的补充。
Apple 在这条路上最沉默。它的 ML 博客详细解释过 Siri 的唤醒检测机制:16 千赫采样、mel filter bank、深度神经网络、说话人识别、false trigger mitigation。但没有提到广告或直播防唤醒方案,也没有像 Amazon 那样公开说明过工程实践。WWDC26 的 notch 观察如果属实,Apple 用的恰恰是这条技术族谱里最老的那一招:十年前 Amazon 广告里就已经出现过的东西。
WWDC26 的场景和 2014 年 Aaron Paul 的广告、2017 年 CW6 的新闻播报在本质上是一回事:一个面向大众的广播源里出现了唤醒词,大量设备同时在线。只是这一次,触发的对象从 Echo 和 Google Home 变成了 HomePod 和 iPhone。
技术栈不同。Alexa 时代是三个音节以上的唤醒词,而 WWDC23 后 Apple 已经把 “Hey Siri” 缩短为单字 “Siri”。单字唤醒的误触发率天生更高。业内公司 Sensory 当时就指出,“Siri” 的两个音节和日常语音中的 “serious” 高度重叠,比 “Alexa” 和 “Hey Google” 更容易误触发。这是 Apple 做单字唤醒时绕不过去的代价。
另一个变量是 Apple Intelligence。这次 WWDC 的核心方向是扩张。Siri 正在变成 AI 原生应用,从简单的命令执行走向上下文理解、屏幕感知、第三方 AI 引擎接入。激活频率和深度同时在上升,误激活的代价也在上升。一个只开灯的误触发损失不大,一个能读写日历和备忘录的误触发完全不同。WWDC26 上 notch 的传闻如果成立,它不是一个工程 trick,而是一个必然的安全措施。
这个故事有一条主线贯穿始终:语音交互是一个天生开放的信道。视觉交互里,你的眼睛可以选择看哪里。触控交互里,你的手指决定按哪里。但语音不区分来源。只要麦克风开着,任何进入的声音都是合法输入。它不来自设计缺陷,来自物理限制。
从 Xbox One 到 Google Home 到 Echo 到 HomePod,每一家都在事后补这个漏洞。2014 年的微软没预料到。2017 年的 Amazon、Google 和 Apple,即使前一年刚看过 Aaron Paul 的笑话,也没预料到自己会踩同一类坑。每一代的防御方案在本质上是在回答同一个问题:如何让设备区分”用户在对它说话”和”电视在对它放屁”。
这个问题仍然没有完整的答案。声学指纹可以识别已知媒体,但未知直播需要动态聚类,而且需要大量同时触发才可靠。水印需要整个内容生产链路配合,从拍摄到编码到播出,每一环都不能断。设备端的 false trigger mitigation 需要持续迭代模型,攻防双向演进。这些方案解决的都只是”知道这是广播”这一层。一个更有野心的方向或许是让设备知道”谁在说话”,让麦克风从硬件层面拒绝屏幕方向的声音。
WWDC26 的 notch 传说,无论真伪,都提醒了一件事。十五年前一个 Aaron Paul 的广告里暴露出来的问题,今天仍然在用不同的形式重演。技术每向前走一步,背后都有一个人在同一个地方摔过跤。