产业与竞争科研与技术前沿

震惊!谷歌AI天气预报屠榜!三年之后回头看,有多少是真的?

DeepMind 在 2023 年 11 月 14 日于 Science 杂志发表了 GraphCast 论文,并在自家博客中高调宣称该系统在十天期全球天气预报上达到了世界顶尖精度。消息一出,国内的科技媒体次日便掀起了舆论热潮。科学网直接用完胜超级计算机!谷歌AI新模型预测天气又快又准当标题,36氪和新智元也打出了碾压行业SOTA的旗号,量子位与IT之家则宣称其90%指标超越人类最强模型,36氪的另一个版本甚至写着击败了全球最好预报系统。在这十五篇相关的中文报道里面,有十一篇的标题充斥着完胜、碾压、击败、超越这些充满了竞技对抗色彩的词汇,给人的感觉就像是人工智能又轻松颠覆了一个传统行业。相比之下,新华网的标题谷歌下属团队研发人工智能模型预测中期天气显得极为收敛,完全没有使用这类博人眼球的对抗性比喻,但也正因如此,这篇报道几乎没有在信息流里激起任何水花,毕竟温和客观的声音在追求流量的社交网络上总是难以引起关注。

如今三年时间已经过去,如果我们默认人工智能在当年确实对传统气象预测实现了跨越式超越,那么在现实生活中,我们感知到的天气预报质量究竟提升了多少?

想要弄清这件事,最直接的做法就是翻看业务运行数据。气象预报是极少数有明确 ground truth 且数据完全公开的行业,我们不需要偏信任何单方说辞,让历史曲线自己开口说话即可。

中文媒体标题墙

天气预报的精度一直被追踪,2023 年没有任何变化

全球范围内的天气预报水平,其实一直有跨国权威机构在进行不间断的跟进,而且这些账目向全社会公开。比如欧洲中期天气预报中心(ECMWF),从上世纪八十年代起就建立了一套用于衡量有效预报天数的刚性标准:当 500hPa 位势高度的预测结果与实际气象观测值的相关系数跌至 80% 以下时,看这个预报能够提前几天给出。这项指标不仅不是关起门来的内部考核,反而是他们对外公布的核心战略数据,在 charts.ecmwf.int 网站上一直保持着准实时更新,且每年都会在技术备忘录(Technical Memorandum)中披露极为详尽的比对结论。世界气象组织(WMO)和美国国家海洋和大气管理局(NOAA)同样运转着类似的开放式监测平台,可供公众随时调取审计。

观察这根精度曲线,它在 1980 年代初期只有 6 到 7 天左右,到 2024 年则温和地爬升到了 10 到 11 天之间(数据来源于 ECMWF TM 918),算下来每年平均只取得 0.15 天的细微进展。在这漫长的四十年里,整条曲线走得极平稳,几乎找不到任何陡峭的转折点。气象科学里有一个公认的物理规律天花板,即混沌系统导致大气层的极限预测跨度差不多只有 14 天(参考 Lorenz 在 1963 年的研究),我们花了四十年的心血才从 6 天推进到 10 天,这就意味着往后想要继续逼近剩下的 4 天,每前进一步都会面临极其沉重的物理阻力。

即便曲线在 2023 年触及了历史新高,ECMWF 在技术报告里的阐释也非常务实:这得益于当年连续多个月份维持了高水平的表现,并非某一个时间点发生了跳跃。在技术备忘录 TM 918 的第 17 和第 18 幅图表里,研究人员将 GraphCast、华为盘古气象(Pangu-Weather)以及他们自家的 AIFS 系统作为独立图线,融入到了 2018 至 2024 年 IFS 系统的 ACC 走势中。结果显示,人工智能方案在 2023 到 2024 这一区间确实运行在传统高分辨率系统(HRES)的上方,可是 HRES 自身的演进轨迹依旧保持着以往的节奏温和上行,并未因为这些 AI 竞争者的涉足而发生陡增或不连贯。这套全新技术并没有改变传统业务指标原有的平缓增势,它们只是作为平行对照组呈现在图表上,并不构成本身曲线的物理转折点。

另外一个旁证来自美方的 GFS 系统:到了 2025 年,其有效预报天数甚至滑落回了 2019 年的状态,直接抹平了过去六年攒下来的技术成长(详细分析可见 Balanced Weather)。如果基于人工智能的天气模型已经从底层重构了行业格局,业务端的 GFS 理论上是不可能发生这种大幅倒退的。本质上,真实情况并没有超出日常范畴:一根长期保持平缓爬升的主线,其上方重叠了数根由新色彩标注的平行虚线。

天气预报业务精度时间序列

为什么当时的读者上当了

看 metric 要看 end metric

GraphCast 在公布测试结果时采用的口径是,在一千三百八十项具体的测试指标中,有九成胜过对手,而不是证明自己将实际有效预测跨度拉长了几天。这里的一千三百八十个测试项,是由六个核心气象变量乘以三十七个不同的气压层高度,再乘以各种不同的预报时长得来的(详情参考 arXiv 2212.12794)。这就意味着,单一变量上取得的优势,会在多个维度里反复计入最终的考核底数。考核体系的构造方式,从根本上规定了胜率数字的表现形式。举个生动的例子,假设有一套预测程序,除了温度预测比基准方案好一点之外,在风向、湿度、气压等其余九个不同变量的测试中全盘落后。如果我们在设定考核集时,让温度项占据了压倒性的比例,并且把这个仅存的温度优势在三十七个空间高度和十个时间周期里累计计数三百七十次,那么最终得出来的成绩单依旧可以是完美的九成胜率,尽管该程序在高达九成的关键业务考量上表现不佳。

相比之下,真实可用预报天数是一个不受统计戏法干扰的硬性数据。它的度量尺度简单直接,那就是预报服务最远能准确预测到未来的第几天。日常生产生活中,大家需要知道的是未来的气象预报是否靠谱,而不是计算机在划分出的一千多个微小维度里拿下了几项胜利。最具说服力的相反证据其实已经在前文的图表中展现了出来:如果高达九成的胜率真的代表一种革命性的突破,那么全球业务预报精度的上升轨道在 2023 年理应发生一次阶跃。然而真实轨迹毫无变化。今后当我们在宣传材料里再次碰见极高的胜利率时,有必要在心中打两个问号:这个百分比对应的分母究竟是怎么堆砌出来的,它能转化成多少能在现实世界落地的真实提升。

不仅看说了什么,还要看是谁说的

在我们梳理的十五份中文核心科技媒体稿件里,没有任何一篇引入了利益不相关的天气学者发表的质疑性言论。那些并非出自谷歌官方的第三方引述,细数起来也仅仅来源于三类特定的人群。第一类是来自欧洲中期预报中心的 Matthew Chantry,可他所在的单位在这次事件中既充当了技术对标的靶子,也是论文研发的重要合作机构。第二类是加州大学洛杉矶分校的计算机研究员 Aditya Grover,可其学术领域根本不涉及日常天气预报的业务运转。第三类是科罗拉多州的 Jacob Radford,但他出现在媒体上的唯一观点也只限于称赞该模型的运算效率极高。也就是说,当时在媒体端,根本找不到任何可以从气象学实操层面去审视 DeepMind 惊人结论的声音。无论是自媒体大号量子位和 36 氪,还是具备严肃背景的科学网和新华网,它们在采纳新闻信源时展现出了不可意料的高度同一,全都顺从地在研发方事先设定好的公关框架里随波逐流。

这种关键视角的缺失并非中文圈子的特有现象,英文世界的十二家代表性媒体里,同样有十一篇把专业天气预测专家的视角关在了门外。唯一的孤例是《新科学家》杂志采访了来自东英吉利大学的气象学教授 Ian Renfrew,他一针见血地表明,在数值预报流程中,最耗费计算资源的数据同化步骤占去了二分之一到三分之二的开销,而 GraphCast 自身并不具备同化实时观测信息的能力,它完全是在免费享用其他系统整理好的高质量数据场。十二分之一的纠偏概率,基本等同于指望在大海捞针中正好瞥见真相。在 2023 年 11 月的那几天里,气象传播渠道事实上形成了一条牢固的因果锁:单向的信息从研发工坊流向外围,接着技术合伙人予以肯定的背书,等流转到一般受众眼前时,整条链条上从未出现过哪怕一个客观的审视者。缺乏毫无利益纠葛的外部审视,这就是最需要引起戒备的地方。

此后当我们面对各种宣称划时代的人工智能突破软文时,不妨主动点算一下,文章附带的采访发言中,究竟有几张面孔跟那家技术公司没有任何私下关联。如果计算结果不幸为零,那么最好先收起兴奋,保持理性的克制。

对技术突变要留个心眼

气象系统预报水平从 6 天推进到 10 天足足跨越了四十个春秋,每年只积攒 0.15 天的细微进展。事实上,这种细微、渐近的过程才是硬科技演化最为普遍的规律。那些兜售一刀切、某一个杰出算法在一夕之间颠覆整个长青行业的神话,听起来虽然大快人心,但在客观的统计学概率上,几乎每一次都会被证伪。

不可否认,人工智能方向的确上演过某些富有戏剧色彩的高光时刻。例如 GPT-3 的问世让大型语言工具走入千家万户,AlphaGo 战胜顶级棋手也被当成了技术爆炸的分界点。可是当我们把目光移向历史,便会察觉这两次轰动都依靠了前期极为扎实的技术铺垫:底层架构的演进、超大规模预训练机制的摸索、还有层强化学习的落地尝试,这些拼图早在尘埃落定前的数年里就已经被工程团队逐一凑齐。所谓的跃升,无非是细碎的力量在触及临界点后产生的集中相变,它极少是脱离物质基础的虚空造物。凡是真正称得上里程碑的变革,必然有迹可查:它们预测的领域必定拥有常年不辍的某项刚性运营标尺,且该标尺在时间轴上会表现出非常直观的走势斜率改变。

然而回顾 GraphCast 的经历,DeepMind 曾直接在官方通告中给出了它是世界上精度极佳的十天级全球天气预测系统的绝对判断。可是如今翻看这三年的行业运营总表,我们在宏观走势上根本捕捉不到这股变革的踪影。此处的关键并非在于它未能发生突跃,而是它连稳步上升的那部分小微增量都算不上,却纯粹凭借巧妙的叙事包装塑造成了跨时代的奇迹。耐人寻味的是,研发团队在后续推出 2024 年的 GenCast 和 2025 年的 WeatherNext 2 时,依旧复制了相同的宣传口径,每次都少不了最先进和最前沿等高调词汇,其战胜概率也从九成一路上扬到九成七、甚至是惊人的九成九。不过只要仔细拆解就会发现,拿来作为参照物的对手已经从欧洲中期中心的真实业务网络,悄然降级成了他们自己上一代的数据模型。用不断变弱的对手去换取直线上扬的胜率数据,这本身就已经是非常具有启发性的细节了。

下次再看到”碾压”和”完胜”时,你可以做三件事

GraphCast 在科研探索层面的作用不可否认,它在基准评测上的确握有真凭实据,并且慷慨共享的源码也切实地催化了整个人工智能气象建模潮流的发展。只是,研究层面的溢出效应与最终交付的现实成果往往并非对等。在学术的数据集上跑赢旧算法,与我们平时拿到的预报变得更准,这两者之间横亘着漫长而繁杂工程距离,像是实际业务的接受度、复杂系统的整合难度,以及最终端到端的实际准头。研发方的市场营销行为人为地模糊了这两者的边界,而国内的媒体工作者则在传导过程中,不加思索地套上了更多战胜和碾压的对抗字眼。

这一事件的真相之所以能够被我们抽丝剥茧地还原出来,主要得益于气象预测领域刚好拥有一项维持了数十年的公开业务标尺。而在我们见到的大多数人工智能创新公关中,公众并没有如此便利的验证条件,相关垂直方向的技术指标很多时候是空缺的,或者处于不公开、被单一开发厂商垄断的处境下。我们完全无法效仿当前的做法,去深究智能法律助手在司法实践中的胜诉概况,或者人工智能诊断软件在真实门诊中的漏诊几率,因为这些赛道上目前还没有任何一个客观中立的机构,愿意承担起跨越数十年并使用同一体系进行全程追溯的职责。

正因如此,当偶然碰见一个拥有高度透明公开验证源的例子时,将它彻底拆解,就能沉淀出套路清晰的辨识方法。后续当我们在标题里再次邂逅各类充斥着碾压、横扫或是超越最顶尖水平的豪言壮语时,手头至少有三件切实可行的事情去求证:一是刨根问底去寻找代表最终效能的实体指标,而是只看加工出来的百分比胜率;二是扒一扒引述的言论来源中,究竟包含了几个毫无业务纠葛的客观观察者;三则是核实这一赛道是否运行着可以随时调取的公开监控数据。只要把这三点落到实处,市面上大部分靠文字游戏吹起的公关泡沫,在常识面前就会不攻自破。

鸭哥每日手记

日更的深度AI新闻和分析