Anthropic 今天发布了 Fable 5,附了一份 244 页的安全报告。跟每次新模型发布一样,大家的目光集中在一个问题上:这个模型会不会被用来造生物武器?
Anthropic 的结论是不会,至少目前不会。但得出这个结论的路上,他们跑了一个实验。结果比结论有意思得多。
实验讲起来不复杂。Anthropic 找了六位生物学博士,每人配一位 LLM 专家,分成两组。一组配了植物病理学专家,另一组配的是一般微生物学博士,不是这个细分领域的。所有人用同一个 AI 模型:Claude Mythos 5,也就是 Anthropic 今年发布的能力最强的模型,16 小时内解决一个农业病原体防御的设计任务。
通用组里有两支团队,方案质量超过了全部专家团队。
专家自己估算,同样的方案靠纯人工需要两到三个半月。有了 AI,两个人一天多搞定了。
稻瘟病、RNA 干扰疗法、Magnaporthe oryzae,这些名词不重要。这个实验真正有意思的地方,在它画出了一条分界线,和分界线旁边那个一直没被拿走的人。
AI 在哪赢了?赢在那些答案已经存在、只看谁更快更全地找到它们的任务上。文献检索,跨领域综合,在已有数据上做排序优化。Mythos 5 在这些方向上的速度和覆盖面,超过任何一个人类专家。
AI 在哪输了?输在需要踩刹车的地方。即使是 Mythos 5,给出来的初始方案还是常常过度乐观,过于复杂。评审反复把它推翻重来。还会犯不查就会致命的低级错误,比如关键计算搞错数量级。最典型的是:它明明已经检测到了方案里有缺陷,还是继续往下走,不主动停下来。
两边一对照,结论很清楚:在标准答案确实存在的前提下,AI 找答案已经打平了专家。判断什么答案对、什么时候答案不对劲,它还差很远。
通用组赢了专家组。两组身后都站了同一个人:LLM 专家。这个人一在场,懂不懂稻瘟病这件事的分量突然变轻了。领域知识的鸿沟被抹得差不多了。
每个团队都配了一位 LLM 专家。这是整个实验里最容易被跳过的细节,也是唯一一个从头到尾没有被对照的变量。
没人试过让通才自己单独用 AI。对照实验比较的是领域专家和领域通才,结论是通才也能赢,说明领域知识不是瓶颈。但那个 LLM 专家的作用始终没有被单独检验。
这个人的工作不是写 prompt。对照那些失败模式来看,他在做一件完全不同的事:他知道模型会在哪里掉链子。
他知道模型会虚构引用,会在长会话里忘记前面的约束,会高估一个方案的可行性,会绕开简单路线直奔复杂的。知道这些以后,他刻意在这些位置收紧,发现不对就把模型拉回来。
这件事说到底就是校准:知道这个工具不可靠的模式长什么样,能判断它这次给的答案能不能信。不是掌握了某个 prompt 技巧,是对它的失败方式有感觉。
这种能力之所以稀缺,恰恰因为模型的弱点是可预测的,却不是模型自己能修复的。模型可以检测到方案里的缺陷,但它不会自己停下来。模型可以搜集大量文献,但它不知道自己引用的某一条是假的。模型可以给出一个方案,但它不知道这个方案在实验室里会因为连锁反应全部失败。需要一个人站在外面,对它的输出保持怀疑,而且知道该在什么地方怀疑。
过去靠的是领域知识。你懂稻瘟病,别人不懂,你就比别人值钱。AI 正在把这件事拉平。已发表的知识,模型检索得比谁都快,单个人的记忆和精力优势被抹掉了。
但 AI 把一件事拉平的同时,也捅出了一个新缺口。它越能快速输出答案,就越需要有人判断答案靠不靠谱。因为它会自信地犯错。把难的当容易的,把编的当真的。
而且这个新缺口和以前的不一样。领域知识的缺口是分散的,三百六十行各有各的门槛,稻瘟病专家帮不了心脏外科。但会校准 AI 的人,他的能力跨行业。模型的毛病在各个领域长得差不多:过度乐观、编造数据、低估复杂度、不主动停下来。你在生物研究里练出来的校准直觉,换到法律文书、材料配方、投资分析里,一样管用。
领域专家不用全程在场,给几条关键反馈就够了,每次几句话,间歇参与。校准者不行,他得一直盯,每一轮输出都过眼。
谁一直盯,谁就是那个绕不过去的人。
校准以外,「会用 AI」还有另一层:搭工具链,也就是让 AI 自己一轮一轮迭代执行。设计验证闭环,管理上下文,处理报错。
这一层现在值钱,但窗口在收窄。提示词技巧最先退潮。GPT-3.0 时代的偏方,到 GPT-5 官方反过来劝你删掉。Claude Code、Cursor 这类工具紧接着把通用执行做成了标准运行时,你不再需要自己写 agent loop。
文件读写、命令执行、基础错误恢复、上下文管理,这些通用的执行编排正在变成现成产品,这件事过去一年的证据已经很清楚。剩下的脚手架,要么直接用现成的,要么留给少数特定场景。它的保质期比校准短得多。
把这两层混在一起说「会用 AI 就是未来」,会把后者的保质期想得太长。
Anthropic 对 Fable 5 的安全结论,恰好也压在这条线上。
他们的内部警戒线(CB-2)衡量的是:模型能不能替代构成生物武器开发门槛的稀缺人类专长。Anthropic 判断 Fable 5 还没越过这条线,因此允许发布。但这个判断「比以往任何模型都更不清晰」。
支撑「没越过」的关键证据,就是前面讲的那些缺陷:开放式构思弱,战略判断差。
这里有一个隐含的赌注。那个实验本身证明了,当复合团队(通才加上 LLM 专家)把 AI 的判断短板补上,AI 在特定领域确实能替代世界级专家。Anthropic 判没危险,赌的是现实里的普通使用者不会去补那块短板。安全结论的承重点,压在「那个会校准的人在不在场」上。
这和价值的逻辑,是同一件事的两面。那个人在不在场,既决定了 AI 能不能发挥出专家级表现,也决定了模型是不是逼近危险阈值。
实验不大,样本只有 3 对 3,方案也从来没真的在实验室验证过。从这个实验直接跳到「通才将替代专家」,过结论了。但它提供了一个可以复用的判断框架。
想知道 AI 在一个领域里到底改变了什么,问三件事。
第一,有多少工作落在找答案的那一侧。这部分 AI 正在快速拉平。懂一个领域、比外行多知道一点的优势,在这个方向上越来越小了。
第二,有多少工作落在判断答案对不对的那一侧。这部分暂时守得住。AI 在这里还很弱,而且弱的方式很一致:过度乐观,不知道什么时候该简单,不主动停下来。
第三,你是不是那个能补上这个短板的人。这种能力跨行业,高集中度,暂时还没有被产品或模型自身吞掉。
过去比的是谁知道得多。AI 在某些方向上把信息差抹平了。但抹平信息差的同时,它造出了新的短板。一个不起眼的稻瘟病实验,可能是这个变化第一次被数据说清楚。
本文试图由 Claude Fable 5 撰写,但内容百分之百触发安全预警,最终由 DeepSeek V4 Pro 完成。