社区与认知个人决策

AI 时代，复核不等于独立判断

发布于 2026 年 5 月 6 日

网上和人争一个问题，对方甩过来一大段 AI 生成的反驳。分段清楚，语气笃定，甚至还列了几个看起来像证据的点。对方的意思就是：你看，AI 也是这么说的，所以你错了。

这很容易让人火大。AI 当然可能是对的，问题在于对方把 AI 的输出当成了自己的判断。他没有说明怎么问的、查了哪些来源、哪些地方自己核过，只是把一段流畅文本拿来压你。你要反驳它，反而得替他分析整段论证，查一遍事实，确认哪些是真的、哪些只是看起来像真的。

问题在于，这个场景看起来很蠢，但我们自己每天也在做相近的事。用 AI 起草分析、整理思路、写邮件、回复批评，然后读一遍，改改措辞，发出去了。轮到自己时，这不叫拿 AI 当权威，这叫提高效率。因为 prompt 是你写的、方向是你定的、上下文是你给的，AI 的输出读起来像你已经想过的东西，你只是把它写清楚了。

这里的不对称很关键。别人拿 AI 输出来证明你错，你能立刻看到判断的缺席。自己使用 AI 时，那条线模糊得多：AI 的流畅推理和你的判断揉在一起后，你分不清哪些是自己过滤过的、哪些只是跟着走过去的。输出像是你的，但判断有没有真实发生过一次，你并不比对方更确定。

所以这里真正要问的是：他在转发或使用这段文字之前，自己有没有真的判断过一遍。这个问题放到我们自己身上也一样。AI 给出一个答案以后，我们到底是在独立判断，还是只是读了一遍觉得它合理？Shaw 和 Nave 的实验，看的正是这个瞬间。

实验中的不对称

Wharton 的 Shaw 和 Nave 在一篇预印本论文中（SSRN / OSF 摘要，Wharton 官方解读）把它做成了实验。

参与者回答的是认知反射测试题。这类题绕开知识储备，专门制造一个场景：第一反应看起来很顺，但只要停下来多检查一步，就会发现它可能是错的。它测试的重点是，答案已经出现之后，人还愿不愿意暂停一下，把自己的第一判断重新过一遍。

实验中，一部分参与者可以咨询 AI 聊天机器人。机器人有时给正确答案，有时给错误答案。这里真正接近日常 AI 使用的地方在于：错误不一定以离谱形式出现。它可能带着推理步骤和确定语气出现，不主动停下来验证就不容易意识到问题。这也是现实生活中 AI 最容易让人放松警惕的场景：看起来正确，但实际不对。

结果分两层看。

第一层是采纳率。1,372 人、9,593 次试验。使用了 chat 的条件下，AI 给正确答案时参与者接受了约 93%，给错误答案时也接受了约 80%。这两个数字不算意外。人容易采纳 AI 输出，这件事本身并不陌生。

第二层更关键。有 AI 可用组的自我评估信心比无 AI 基线组高出了 11.7 个百分点。论文特别指出，即使在 AI 给出错误答案之后，这种信心上升仍然存在。AI 答错了，用户的信心没有跟着降。参与者接受了错误，同时对自己的判断更自信了。校准信号断了：你不仅接受了错误，还不知道自己在接受错误。

这意味着核心问题已经不限于人对 AI 太信任。人失去了对自己判断精度的感知。你能感觉到自己对，但你感觉不到自己可能是错的。

检查如何偏移成了熟悉度检测

为什么 AI 的错误没有引发足够的不确定感？

因为 AI 不只给答案。它给出完整的推理过程：论证结构、因果链条、自信的语气。你读到的是一套已经组织好的论证材料。这套材料足够流畅、足够完整，大脑把它标记为对的。后续的检查变成了熟悉度检测：我读过了，读得通，没有明显矛盾，可以签字通过。

这和独立重建判断路径是两回事。独立重建是从问题出发自己走一遍推理，每一步可以停下来评估可选路径、决定方向。熟悉度检测的入口已经由 AI 给出。你的工作变成了检查这条路看起来顺不顺，而不是决定往哪个方向走。两者的差异在于：独立重建时，你控制入口；熟悉度检测时，入口已经定了。

最常见的反驳是计算器类比。按完计算器也不会手算一遍，这和 AI 有什么区别？

区别在三个维度。第一，计算器处理封闭域，错误要么对要么离谱，不会产生看似合理的伪论证。第二，计算器的结果随时可以用心算验证，备份通道始终可用。第三，计算器只替换执行层，你仍然决定做什么运算、怎么用结果。LLM 进入的是开放域，错误被包装在流利的自然语言里，缺少独立验证通道，在很多任务上同时替换了问题定义、检索、推理和输出。工具越往上游移动，从执行层进入判断层和问题定义层，认知让渡（cognitive surrender）的风险越高。用一件工具之前，先问自己：如果它错了，我能否在不使用它的情况下发现？如果答案是不能，你的认知已经在让渡了。

为什么常规补救手段不够

如果问题出在锚定上，很多人会先想到让 AI 输出更透明。但常用的几种补救手段，各自有各自的局限。

加解释。 直觉是 AI 说明推理过程，用户就能判断推理质量。这个问题在 ChatGPT 出现之前就有人研究过。Buçinca、Malaya 和 Gajos 2021 年研究的是传统 AI 决策辅助系统，研究对象还不是今天这种生成式 AI（论文链接）。但它给了一个有用的提醒：给 AI 建议附加解释，并没有自然减少用户的过度依赖，某些情况下还会增加。解释和答案通常站在同一边，它给用户更多理由去同意，却没有给用户一个新的、独立的判断入口。更多文本不等于更多验证。

标不确定。 直觉是 AI 表明自己不确信，用户就会更谨慎。2026 年发表的研究 More Is Not Better（ScienceDirect）发现，视觉不确定性提示改善了用户自以为能区分对错的主观感受，但没有改善实际决策行为。用户觉得自己更警觉了，行为几乎不变。这和 Shaw/Nave 实验的发现一脉相承：信心膨胀不纯粹是对 AI 的过度信任，而是人对自身校准精度的感知失灵了。不确定性展示让用户感觉更好，但不修复校准本身。感觉校准了不等于判断校准了。

给奖励和反馈。 另一个直觉是：如果答对有奖励，答错马上告诉你，人应该会更认真。Shaw/Nave 的第三个实验测试了这个想法。结果确实变好了：看到 AI 给错答案时，愿意拒绝它的人从 20% 增加到 42%（PsyPost 报道）。不过反过来看，仍然有 58% 的人接受了错误建议。也就是说，奖励和反馈能把一部分人拉回来，但不能消除问题。时间压力还会继续放大风险：30 秒限时下，纠正错误 AI 的倾向降低了 12 个百分点（Ars Technica 报道）。这说明问题不只是用户有没有动力。只要第一步已经从 AI 的答案开始，后面的检查就会受到它影响。

更仔细地复核。 直觉是如果前三种方案都不够，我多读一遍、检查更细总能发现问题。仔细阅读当然有用，但阅读不等于独立判断。AI 已经把路径画好了，你复核的是一条已经画好的路。你可以在路上找到语法问题和逻辑矛盾，但很难发现路径本身的方向偏差，因为你大脑走的正是 AI 给出的那条路。复核能找到 AI 回答中的错误，但这靠的是运气（恰好 AI 在这个细节上犯了错，而你恰好检查到了这个细节），不是稳健的方法。

这四种方法都有作用，局限也相同：它们都发生在 AI 输出已经给出之后。判断入口已经被 AI 占住了，再回来补救，效果就会打折。更稳的做法可能要放在输出之前。

复核和交叉检查

这个矛盾指向一个实用的区分。

复核（double-check）是沿着 AI 给出的同一路径再走一遍：重读答案、检查步骤、验证事实。当输出能在几秒内确认时（拼写检查、编译报错、公式验算），复核足够了，独立视角的代价超过收益。David Lyell 和 Enrico Coiera 2017 年在 JAMIA 上的系统综述（论文链接）把这个变量称为验证复杂度：用户想确认一个自动化建议是否正确时，需要多少步骤、多少专业知识、多少工作记忆。验证复杂度低，复核就有用；验证复杂度高，复核的效果取决于路径本身的质量。沿着错的方向走一遍，走得再仔细也发现不了方向偏差。

交叉检查（cross-check）则是在看到 AI 的答案之前先建立一个独立的参考点。你可以先写下自己的预估，列出你认为哪些环节容易出错，沿着自己的思考框架捋一遍，或者问另一个模型同一个问题看会不会得到不同的结果。然后带着这个参考点去比照 AI 输出。你不需要重做每一个细节。你只需要一个不被 AI 输出塑造的基准。有这个基准在，复核才有支点：你检验的对象从一条画好的路，变成了自己的坐标点和一个新输入之间的差异。

公司里的场景能把这种区分说得更清楚。好的管理者审核下属的分析时，通常不重算每一笔数字。但如果他们打开报告之前没有预期、没有预设、没有风险判断，读下来觉得通顺就签了，这不叫审核，这叫过场。好的管理者做一件和这完全不同的事：在打开报告之前，已经对结论有预期，知道什么结果会让自己意外，清楚哪些假设比较脆弱，心里有几个要追的问题。然后带着这些预期去抽样、提问、交叉验证。这是一种独立判断准备，不是一种后验阅读。

独立优先不等于重做一切。它不要求在 AI 出现之前回到全部手动状态。它只要求评价者在接触 AI 输出时，已经有一个不是由这份输出制造出来的视角。有这个视角在，复核就有了支点。缺少这个视角，复核只是在检查别人画好的路。

带着地图对照

回到开头那个瞬间。问题不在少用 AI，也不在更用力地检查，因为检查本身已经可能变质了。更有用的是换一个出发点问自己：

我是沿着 AI 画好的路再走一遍，还是带着自己的地图在和它对照？

AI 应该降低到达判断现场之前的一切成本：搜索、整理、格式、检索、第一版草稿。但判断现场本身，也就是决定同意什么、质疑什么、往哪个方向走的那一步，需要留给人自己。先有自己的地图，再去比照 AI 画出来的路。复核和交叉检查的界线就在这里。