AI 产品与平台科研与技术前沿信任与治理

Fable 5 的安全报告里埋着一个稻瘟病实验，暴露了谁才是绕不过去的人

发布于 2026 年 6 月 9 日

Anthropic 今天发布了 Fable 5，附了一份 244 页的安全报告。跟每次新模型发布一样，大家的目光集中在一个问题上：这个模型会不会被用来造生物武器？

Anthropic 的结论是不会，至少目前不会。但得出这个结论的路上，他们跑了一个实验。结果比结论有意思得多。

实验讲起来不复杂。Anthropic 找了六位生物学博士，每人配一位 LLM 专家，分成两组。一组配了植物病理学专家，另一组配的是一般微生物学博士，不是这个细分领域的。所有人用同一个 AI 模型：Claude Mythos 5，也就是 Anthropic 今年发布的能力最强的模型，16 小时内解决一个农业病原体防御的设计任务。

通用组里有两支团队，方案质量超过了全部专家团队。

专家自己估算，同样的方案靠纯人工需要两到三个半月。有了 AI，两个人一天多搞定了。

稻瘟病、RNA 干扰疗法、Magnaporthe oryzae，这些名词不重要。这个实验真正有意思的地方，在它画出了一条分界线，和分界线旁边那个一直没被拿走的人。

一条分界线

AI 在哪赢了？赢在那些答案已经存在、只看谁更快更全地找到它们的任务上。文献检索，跨领域综合，在已有数据上做排序优化。Mythos 5 在这些方向上的速度和覆盖面，超过任何一个人类专家。

AI 在哪输了？输在需要踩刹车的地方。即使是 Mythos 5，给出来的初始方案还是常常过度乐观，过于复杂。评审反复把它推翻重来。还会犯不查就会致命的低级错误，比如关键计算搞错数量级。最典型的是：它明明已经检测到了方案里有缺陷，还是继续往下走，不主动停下来。

两边一对照，结论很清楚：在标准答案确实存在的前提下，AI 找答案已经打平了专家。判断什么答案对、什么时候答案不对劲，它还差很远。

通用组赢了专家组。两组身后都站了同一个人：LLM 专家。这个人一在场，懂不懂稻瘟病这件事的分量突然变轻了。领域知识的鸿沟被抹得差不多了。

那个人一直没被拿掉

每个团队都配了一位 LLM 专家。这是整个实验里最容易被跳过的细节，也是唯一一个从头到尾没有被对照的变量。

没人试过让通才自己单独用 AI。对照实验比较的是领域专家和领域通才，结论是通才也能赢，说明领域知识不是瓶颈。但那个 LLM 专家的作用始终没有被单独检验。

这个人的工作不是写 prompt。对照那些失败模式来看，他在做一件完全不同的事：他知道模型会在哪里掉链子。

他知道模型会虚构引用，会在长会话里忘记前面的约束，会高估一个方案的可行性，会绕开简单路线直奔复杂的。知道这些以后，他刻意在这些位置收紧，发现不对就把模型拉回来。

这件事说到底就是校准：知道这个工具不可靠的模式长什么样，能判断它这次给的答案能不能信。不是掌握了某个 prompt 技巧，是对它的失败方式有感觉。

这种能力之所以稀缺，恰恰因为模型的弱点是可预测的，却不是模型自己能修复的。模型可以检测到方案里的缺陷，但它不会自己停下来。模型可以搜集大量文献，但它不知道自己引用的某一条是假的。模型可以给出一个方案，但它不知道这个方案在实验室里会因为连锁反应全部失败。需要一个人站在外面，对它的输出保持怀疑，而且知道该在什么地方怀疑。

什么东西在贬值，什么东西刚好相反

过去靠的是领域知识。你懂稻瘟病，别人不懂，你就比别人值钱。AI 正在把这件事拉平。已发表的知识，模型检索得比谁都快，单个人的记忆和精力优势被抹掉了。

但 AI 把一件事拉平的同时，也捅出了一个新缺口。它越能快速输出答案，就越需要有人判断答案靠不靠谱。因为它会自信地犯错。把难的当容易的，把编的当真的。

而且这个新缺口和以前的不一样。领域知识的缺口是分散的，三百六十行各有各的门槛，稻瘟病专家帮不了心脏外科。但会校准 AI 的人，他的能力跨行业。模型的毛病在各个领域长得差不多：过度乐观、编造数据、低估复杂度、不主动停下来。你在生物研究里练出来的校准直觉，换到法律文书、材料配方、投资分析里，一样管用。

领域专家不用全程在场，给几条关键反馈就够了，每次几句话，间歇参与。校准者不行，他得一直盯，每一轮输出都过眼。

谁一直盯，谁就是那个绕不过去的人。

会用 AI 的两层功夫，保质期差很远

校准以外，「会用 AI」还有另一层：搭工具链，也就是让 AI 自己一轮一轮迭代执行。设计验证闭环，管理上下文，处理报错。

这一层现在值钱，但窗口在收窄。提示词技巧最先退潮。GPT-3.0 时代的偏方，到 GPT-5 官方反过来劝你删掉。Claude Code、Cursor 这类工具紧接着把通用执行做成了标准运行时，你不再需要自己写 agent loop。

文件读写、命令执行、基础错误恢复、上下文管理，这些通用的执行编排正在变成现成产品，这件事过去一年的证据已经很清楚。剩下的脚手架，要么直接用现成的，要么留给少数特定场景。它的保质期比校准短得多。

把这两层混在一起说「会用 AI 就是未来」，会把后者的保质期想得太长。

安全判定压在同一条线上

Anthropic 对 Fable 5 的安全结论，恰好也压在这条线上。

他们的内部警戒线（CB-2）衡量的是：模型能不能替代构成生物武器开发门槛的稀缺人类专长。Anthropic 判断 Fable 5 还没越过这条线，因此允许发布。但这个判断「比以往任何模型都更不清晰」。

支撑「没越过」的关键证据，就是前面讲的那些缺陷：开放式构思弱，战略判断差。

这里有一个隐含的赌注。那个实验本身证明了，当复合团队（通才加上 LLM 专家）把 AI 的判断短板补上，AI 在特定领域确实能替代世界级专家。Anthropic 判没危险，赌的是现实里的普通使用者不会去补那块短板。安全结论的承重点，压在「那个会校准的人在不在场」上。

这和价值的逻辑，是同一件事的两面。那个人在不在场，既决定了 AI 能不能发挥出专家级表现，也决定了模型是不是逼近危险阈值。

可以带走的判断框架

实验不大，样本只有 3 对 3，方案也从来没真的在实验室验证过。从这个实验直接跳到「通才将替代专家」，过结论了。但它提供了一个可以复用的判断框架。

想知道 AI 在一个领域里到底改变了什么，问三件事。

第一，有多少工作落在找答案的那一侧。这部分 AI 正在快速拉平。懂一个领域、比外行多知道一点的优势，在这个方向上越来越小了。

第二，有多少工作落在判断答案对不对的那一侧。这部分暂时守得住。AI 在这里还很弱，而且弱的方式很一致：过度乐观，不知道什么时候该简单，不主动停下来。

第三，你是不是那个能补上这个短板的人。这种能力跨行业，高集中度，暂时还没有被产品或模型自身吞掉。

过去比的是谁知道得多。AI 在某些方向上把信息差抹平了。但抹平信息差的同时，它造出了新的短板。一个不起眼的稻瘟病实验，可能是这个变化第一次被数据说清楚。

本文试图由 Claude Fable 5 撰写，但内容百分之百触发安全预警，最终由 DeepSeek V4 Pro 完成。