网上和人争一个问题,对方甩过来一大段 AI 生成的反驳。分段清楚,语气笃定,甚至还列了几个看起来像证据的点。对方的意思就是:你看,AI 也是这么说的,所以你错了。
这很容易让人火大。AI 当然可能是对的,问题在于对方把 AI 的输出当成了自己的判断。他没有说明怎么问的、查了哪些来源、哪些地方自己核过,只是把一段流畅文本拿来压你。你要反驳它,反而得替他分析整段论证,查一遍事实,确认哪些是真的、哪些只是看起来像真的。
问题在于,这个场景看起来很蠢,但我们自己每天也在做相近的事。用 AI 起草分析、整理思路、写邮件、回复批评,然后读一遍,改改措辞,发出去了。轮到自己时,这不叫拿 AI 当权威,这叫提高效率。因为 prompt 是你写的、方向是你定的、上下文是你给的,AI 的输出读起来像你已经想过的东西,你只是把它写清楚了。
这里的不对称很关键。别人拿 AI 输出来证明你错,你能立刻看到判断的缺席。自己使用 AI 时,那条线模糊得多:AI 的流畅推理和你的判断揉在一起后,你分不清哪些是自己过滤过的、哪些只是跟着走过去的。输出像是你的,但判断有没有真实发生过一次,你并不比对方更确定。
所以这里真正要问的是:他在转发或使用这段文字之前,自己有没有真的判断过一遍。这个问题放到我们自己身上也一样。AI 给出一个答案以后,我们到底是在独立判断,还是只是读了一遍觉得它合理?Shaw 和 Nave 的实验,看的正是这个瞬间。
Wharton 的 Shaw 和 Nave 在一篇预印本论文中(SSRN / OSF 摘要,Wharton 官方解读)把它做成了实验。
参与者回答的是认知反射测试题。这类题绕开知识储备,专门制造一个场景:第一反应看起来很顺,但只要停下来多检查一步,就会发现它可能是错的。它测试的重点是,答案已经出现之后,人还愿不愿意暂停一下,把自己的第一判断重新过一遍。
实验中,一部分参与者可以咨询 AI 聊天机器人。机器人有时给正确答案,有时给错误答案。这里真正接近日常 AI 使用的地方在于:错误不一定以离谱形式出现。它可能带着推理步骤和确定语气出现,不主动停下来验证就不容易意识到问题。这也是现实生活中 AI 最容易让人放松警惕的场景:看起来正确,但实际不对。
结果分两层看。
第一层是采纳率。1,372 人、9,593 次试验。使用了 chat 的条件下,AI 给正确答案时参与者接受了约 93%,给错误答案时也接受了约 80%。这两个数字不算意外。人容易采纳 AI 输出,这件事本身并不陌生。
第二层更关键。有 AI 可用组的自我评估信心比无 AI 基线组高出了 11.7 个百分点。论文特别指出,即使在 AI 给出错误答案之后,这种信心上升仍然存在。AI 答错了,用户的信心没有跟着降。参与者接受了错误,同时对自己的判断更自信了。校准信号断了:你不仅接受了错误,还不知道自己在接受错误。
这意味着核心问题已经不限于人对 AI 太信任。人失去了对自己判断精度的感知。你能感觉到自己对,但你感觉不到自己可能是错的。
为什么 AI 的错误没有引发足够的不确定感?
因为 AI 不只给答案。它给出完整的推理过程:论证结构、因果链条、自信的语气。你读到的是一套已经组织好的论证材料。这套材料足够流畅、足够完整,大脑把它标记为对的。后续的检查变成了熟悉度检测:我读过了,读得通,没有明显矛盾,可以签字通过。
这和独立重建判断路径是两回事。独立重建是从问题出发自己走一遍推理,每一步可以停下来评估可选路径、决定方向。熟悉度检测的入口已经由 AI 给出。你的工作变成了检查这条路看起来顺不顺,而不是决定往哪个方向走。两者的差异在于:独立重建时,你控制入口;熟悉度检测时,入口已经定了。
最常见的反驳是计算器类比。按完计算器也不会手算一遍,这和 AI 有什么区别?
区别在三个维度。第一,计算器处理封闭域,错误要么对要么离谱,不会产生看似合理的伪论证。第二,计算器的结果随时可以用心算验证,备份通道始终可用。第三,计算器只替换执行层,你仍然决定做什么运算、怎么用结果。LLM 进入的是开放域,错误被包装在流利的自然语言里,缺少独立验证通道,在很多任务上同时替换了问题定义、检索、推理和输出。工具越往上游移动,从执行层进入判断层和问题定义层,认知让渡(cognitive surrender)的风险越高。用一件工具之前,先问自己:如果它错了,我能否在不使用它的情况下发现?如果答案是不能,你的认知已经在让渡了。
如果问题出在锚定上,很多人会先想到让 AI 输出更透明。但常用的几种补救手段,各自有各自的局限。
加解释。 直觉是 AI 说明推理过程,用户就能判断推理质量。这个问题在 ChatGPT 出现之前就有人研究过。Buçinca、Malaya 和 Gajos 2021 年研究的是传统 AI 决策辅助系统,研究对象还不是今天这种生成式 AI(论文链接)。但它给了一个有用的提醒:给 AI 建议附加解释,并没有自然减少用户的过度依赖,某些情况下还会增加。解释和答案通常站在同一边,它给用户更多理由去同意,却没有给用户一个新的、独立的判断入口。更多文本不等于更多验证。
标不确定。 直觉是 AI 表明自己不确信,用户就会更谨慎。2026 年发表的研究 More Is Not Better(ScienceDirect)发现,视觉不确定性提示改善了用户自以为能区分对错的主观感受,但没有改善实际决策行为。用户觉得自己更警觉了,行为几乎不变。这和 Shaw/Nave 实验的发现一脉相承:信心膨胀不纯粹是对 AI 的过度信任,而是人对自身校准精度的感知失灵了。不确定性展示让用户感觉更好,但不修复校准本身。感觉校准了不等于判断校准了。
给奖励和反馈。 另一个直觉是:如果答对有奖励,答错马上告诉你,人应该会更认真。Shaw/Nave 的第三个实验测试了这个想法。结果确实变好了:看到 AI 给错答案时,愿意拒绝它的人从 20% 增加到 42%(PsyPost 报道)。不过反过来看,仍然有 58% 的人接受了错误建议。也就是说,奖励和反馈能把一部分人拉回来,但不能消除问题。时间压力还会继续放大风险:30 秒限时下,纠正错误 AI 的倾向降低了 12 个百分点(Ars Technica 报道)。这说明问题不只是用户有没有动力。只要第一步已经从 AI 的答案开始,后面的检查就会受到它影响。
更仔细地复核。 直觉是如果前三种方案都不够,我多读一遍、检查更细总能发现问题。仔细阅读当然有用,但阅读不等于独立判断。AI 已经把路径画好了,你复核的是一条已经画好的路。你可以在路上找到语法问题和逻辑矛盾,但很难发现路径本身的方向偏差,因为你大脑走的正是 AI 给出的那条路。复核能找到 AI 回答中的错误,但这靠的是运气(恰好 AI 在这个细节上犯了错,而你恰好检查到了这个细节),不是稳健的方法。
这四种方法都有作用,局限也相同:它们都发生在 AI 输出已经给出之后。判断入口已经被 AI 占住了,再回来补救,效果就会打折。更稳的做法可能要放在输出之前。
这个矛盾指向一个实用的区分。
复核(double-check)是沿着 AI 给出的同一路径再走一遍:重读答案、检查步骤、验证事实。当输出能在几秒内确认时(拼写检查、编译报错、公式验算),复核足够了,独立视角的代价超过收益。David Lyell 和 Enrico Coiera 2017 年在 JAMIA 上的系统综述(论文链接)把这个变量称为验证复杂度:用户想确认一个自动化建议是否正确时,需要多少步骤、多少专业知识、多少工作记忆。验证复杂度低,复核就有用;验证复杂度高,复核的效果取决于路径本身的质量。沿着错的方向走一遍,走得再仔细也发现不了方向偏差。
交叉检查(cross-check)则是在看到 AI 的答案之前先建立一个独立的参考点。你可以先写下自己的预估,列出你认为哪些环节容易出错,沿着自己的思考框架捋一遍,或者问另一个模型同一个问题看会不会得到不同的结果。然后带着这个参考点去比照 AI 输出。你不需要重做每一个细节。你只需要一个不被 AI 输出塑造的基准。有这个基准在,复核才有支点:你检验的对象从一条画好的路,变成了自己的坐标点和一个新输入之间的差异。
公司里的场景能把这种区分说得更清楚。好的管理者审核下属的分析时,通常不重算每一笔数字。但如果他们打开报告之前没有预期、没有预设、没有风险判断,读下来觉得通顺就签了,这不叫审核,这叫过场。好的管理者做一件和这完全不同的事:在打开报告之前,已经对结论有预期,知道什么结果会让自己意外,清楚哪些假设比较脆弱,心里有几个要追的问题。然后带着这些预期去抽样、提问、交叉验证。这是一种独立判断准备,不是一种后验阅读。
独立优先不等于重做一切。它不要求在 AI 出现之前回到全部手动状态。它只要求评价者在接触 AI 输出时,已经有一个不是由这份输出制造出来的视角。有这个视角在,复核就有了支点。缺少这个视角,复核只是在检查别人画好的路。
回到开头那个瞬间。问题不在少用 AI,也不在更用力地检查,因为检查本身已经可能变质了。更有用的是换一个出发点问自己:
我是沿着 AI 画好的路再走一遍,还是带着自己的地图在和它对照?
AI 应该降低到达判断现场之前的一切成本:搜索、整理、格式、检索、第一版草稿。但判断现场本身,也就是决定同意什么、质疑什么、往哪个方向走的那一步,需要留给人自己。先有自己的地图,再去比照 AI 画出来的路。复核和交叉检查的界线就在这里。