为什么AI只会说正确的废话,以及怎么把它逼出舒适区

三周前,OpenAI发了一篇关于Harness Engineering的博文。我和社区里一个很厉害的朋友老王各自让自己的Agent做了一份深度调研。我们特意用了同档次的LLM(Claude Opus 4.6 vs GPT-5.4),同一个调研skill,同一个搜索工具Tavily,同一个agentic后端OpenCode,甚至同样的prompt,唯一不同的是两个Agent背后的context:我的Agent接入了我过去一年积累的判断框架和认知体系,老王的Agent没有。结果两边的AI给出了风格完全不同的分析。拿OpenAI和Cursor在harness架构上的收敛来举例:

第一种报告(行动建议部分): 先做知识底座,再做更强agent。给仓库建立清晰的AGENTS.md目录索引;把产品规则、架构规则、执行计划、质量标准写进repo;用CI检查文档freshness和cross-link completeness。

第二种报告(同一话题的分析): 完美主义是吞吐量的敌人。OpenAI采用最小阻塞合并、后续修复的策略。Cursor发现要求100%正确性会导致系统停滞,接受小而稳定的错误率反而更高效。两者都接受了「纠错比等待便宜」的权衡。

差异在哪?第一种给了一份checklist:正确、安全、换任何人来问AI都能得到差不多的东西。第二种给了一个insight:跨两个不同来源提炼出一个有立场的判断(完美主义是敌人),并归纳出底层权衡(纠错比等待便宜)。一个是搬运工,一个是分析师。两篇完整报告可以在这里对比:第一种报告第二种报告

如果你回忆一下自己用AI做分析性工作的经验,大多数AI的产出其实都像第一种报告:找不出明显的错误,但读完之后没有任何启发。属于正确的废话。第二种极其少见。这种普遍的平庸来自一个LLM训练的底层原因。

LLM的Consensus天花板

这个原因是:LLM被训练的方式就决定了它的默认输出是consensus(共识)。

LLM训练的本质是next token prediction,它的意思是:每一步输出概率最高的token。概率最高意味着最多人会认同,也就是consensus。RLHF在这个基础上更进了一步:安全对齐专门惩罚有争议的、带有强烈立场的输出,鼓励平衡、全面、没有明显偏向的回答。两层机制叠加,LLM的默认行为就是回归均值。

这个默认行为导致了一个相当严重的缺陷。比如过去两年认知方向最火的产品是Deep Research,但仔细看它做的事情:自动化的高频搜索,多文档综合,扩大信息覆盖面。这其实和都Deep没有关系,充其量是Wide Research。换言之,Deep Research是一个非常有误导性的名字。它解决的问题是信息不对称:你以前不知道的,现在知道了。但是真正的深度来自另一个维度,来自认知不对称。面对同样一份行业报告,一个从业二十年的老兵和一个刚入行的新手看到的东西完全不一样。老兵的优势在于他有一套经过多年试错沉淀下来的认知系统,知道哪些数据是噪音,哪些异常值预示着趋势。小白没有这个滤镜,就算拿到10倍厚的报告也没办法做出同样质量的决策。

这就是为什么你很少听到有人说「用了AI之后我有了以前从来没有过的深刻判断」。AI可以把一个小白提升到大众平均水平,因为它的训练数据就是大众平均水平的压缩。但对于已经在平均水平之上的人,AI的consensus输出对他的判断几乎没有增量。深刻的定义本来就是非共识,而非共识恰好是LLM被训练去规避的方向。

但是,这个gap意味着一种浪费,一个机会。AI只能输出consensus的话,你就没法把真正的thinking委托给它。不说AGI之类的长远前景,就看日常应用,它能当秘书帮你整理信息,但是当不了顾问/教练,帮你做判断。之前的AI管理系列文章里讨论过这个区别,但那时还没有找到系统性的突破口。

那突破口在哪?

AI已经从CPU Bound走向Memory Bound

面对AI说正确的废话,大家的直觉是去优化模型:换更好更贵的模型、改更复杂的prompt、加更完备的工具,Multi-Agent、Harness全给它整上。这些做法都在优化同一个维度:模型的智能。

但是开头的实验已经告诉我们答案了。两边的模型智能几乎一样,工具一样,prompt一样。唯一不同的是context:第二种报告背后有一年积累的判断框架,第一种没有。结果一个输出checklist,一个输出insight。

变量只有一个,结论很显然:(在模型智能跨过一道坎以后)决定产出性质的是context,而不是模型的智能。其实这种转变在计算机历史上发生过:CPU快到一定程度之后,继续升级CPU就没有意义了,主要的提升都来自内存架构。而LLM现在到了同样的拐点。

这个判断是反直觉的。这是因为一说起AI,大家第一反应就是模型。我们经常看到模型升级了,却从来没看到过context升级了这种说法。但这个不对称本身就揭示了一个更深刻的趋势。每次模型升级,智能就更便宜一点,你用的模型别人也能用。但你的context是只属于你的,模型升级不会让它贬值。所以持续投入在一个不断贬值的维度(模型智能)上,收益递减;投入在一个不贬值的维度(个人context)上,收益累积。

既然瓶颈在context,那要突破consensus天花板,就需要用足够密度的个人认知上下文压过训练时的consensus prior。几句话的system prompt做不到这件事。你的品味、你对优先级的直觉、你在某个领域反复验证过的判断框架,这些东西是高维的,散落在过去无数次决策和反馈里,几句话根本说不清楚,而需要一套系统来采集和精炼。

怎么把LLM从Consensus的舒适区域里面逼出来

为了实现这个目标,我花了一年时间,逐渐构建了一整个系统,发展为三个互相支撑的要素。每一个要素都在回应一个具体的问题。

大量积累

第一个问题是:你的认知框架到底是什么?

这个问题看起来简单,实际上非常困难。厉害的人通常说不清楚自己哪里厉害,就算能说上来,往往也是错的。很多他觉得「没什么大不了」的肌肉记忆一样判断,恰恰是他最独特的地方。这部分一定要一个第三方才能捕捉到。

所以捕捉Context的起点是采集客观的行为数据,而不是单单靠自己写prompt。我持续了一年相关实验,包括录音转写、会议记录、微信对话导出、和AI的每次对话、每次纠正甚至发飙,都积累成了本地文件。这些是我们在真实决策场景下展现出来的判断逻辑。

注意,我们自己很难从里面提取模式,因为我们太接近它了。这往往需要一个旁观者来看,AI在这件事上是个合适的旁观者。因此,我把所有数据放在同一个文件夹里,AI打开就能看到所有内容,对任何项目做cross-reference。这是context density的基础。

分层提炼

第二个问题是:原始数据里那么多噪声,怎么把信号找出来?

你今天做的某个决策可能是因为没睡好,可能当时信息不全,也可能就是随机选的。如果把原始数据直接给AI(比如Mem0的做法),AI面对的解读空间太大了。一个具体事件可能体现了很多不同的原则,有些决策甚至是arbitrary的。因此,我们需要一个精炼过程。

这里我用了一个非常简单的筛选标准:稳定性。一个判断如果是跨场景、跨时间反复出现并保持一致的,它大概率是我们认知结构的一部分。不稳定的是情境反应,稳定的才是我自己。

受OpenClaw启发,这个精炼分为三层。L1 Observer每天扫描文件变动,提取有意义的观察,写个流水账。L2 Reflector每周合并重复、清理过期信息、识别跨项目模式,负责把信号和噪声分离。L3 Axiom从稳定模式中蒸馏决策原则,只保留真正代表你的东西。经过了一年的积累和几周的精炼,目前我的系统里积累了44条axiom,覆盖我的技术选择、沟通风格、商业判断等等主观偏好。

这里我们和Mem0等等流行记忆系统的核心区别在于蒸馏的深度。Mem0蒸馏到事实层就停了:「你偏好TypeScript」「你住在上海」。但是我们的系统继续往上走,蒸馏到判断原则层:「评估技术方案时,你怎么权衡可维护性和性能,优先级排序是什么」。事实告诉AI你是谁,判断原则告诉AI你怎么想。让AI产出从consensus变成non-consensus,需要的是后者。

按需加载

第三个问题是:这么多context,怎么给到AI?

全部塞进去是不行的。Context window有限,而且无关信息会稀释有效信号。一个写代码的任务带入所有的商业判断原则没有意义,一个做调研的任务也不需要加载代码架构偏好。

解决方案是现成的skill系统:每个skill是一个针对特定任务类型的context子集,包含这类任务最相关的axiom,判断标准,和常用工具。做调研时加载调研的分析框架,写代码时加载架构原则和审阅偏好。这和CPU的内存层级也是类似的:L1 cache是AGENTs.md,L2对应skill库的索引,告诉AI如果需要什么信息的话往哪找,L3则对应具体的skill文件。按需加载,渐进披露,每层只在需要的时候被调用。

循环

三个要素运行起来之后,一件有意思的事情发生了:知识产品开始涌现,而每个产品在消费context的同时也在产生新的context。

鸭哥AI手记 是基于这个上下文系统写的每日AI行业简报,每一期都在消费axiom和skill,同时产出新的观察进入observation库。具体的领域调研报告 是带判断标准的深度分析,每篇报告在生产过程中同时也在更新相关领域的认知框架。这两个系列的报告质量都很高,被大家广泛订阅和转发。这证明了循环可以在足够高的context density下自然形成,在持续运行中不断保持活力。

这个系统的本质是把你的bias注入AI。有品味的bias是深度的来源,但bias也可能是质量不高的偏见。不过把bias显性化这个过程本身就很有意义。在没有这个系统之前,你的bias散落在决策里,你意识不到它的形态,甚至存在。经过采集、精炼、蒸馏之后,你能看到自己面对某类问题时倾向于优先考虑什么、倾向于忽略什么。这种自我认知的进步,单独就有价值。

回到开头的实验。老王的AI输出consensus,因为它能看到的context几乎是空的,训练时的prior没有被任何个人认知覆盖。我的AI输出有判断力的分析,因为它有一年积累的判断框架在背后。同一个模型,context density不同,产出的性质就不同。

开源的参考实现

但是注意,这个系统需要时间积累,需要一定的技术能力,需要持续维护的意愿。但换一个角度理解这个成本:「改一下system prompt就让AI瞬间懂你」或者「换一个更好的模型就够了」,这些捷径从原理上就走不通。Consensus prior太强,几句话压不过去,换模型只是换了一个consensus的来源。对于一个这么重要的问题,it deserves a system。从源头采集、分层精炼、按需加载、循环更新,每一步都有它的理由。并不简单,但特别有帮助。

我们把这个系统的完整结构开源了:github.com/grapeot/context-infrastructure。这个repo是一个参考实现,包含了我们实际在用的44条axiom、核心skill文件、三层记忆系统的代码、以及文章里提到的所有组件。

需要说清楚的是:这个repo的主要价值是让你看到一个运行了一年的系统长什么样,而非让你克隆下来就能直接用。你可以打开它跟AI对话,问「这个观点鸭哥会怎么看」,立刻体验到有context和没有context的差异。但要想让AI真正变成你自己的,没有捷径。你需要从头开始采集你的行为数据,设置你自己的计划任务,让系统从你的决策历史中蒸馏出属于你的判断原则。别人的skills是别人的视角,参考可以,替代不行。

偏见与硅基大脑

总之,AI变得更聪明,并不自动让它变得更深刻。更聪明的consensus依然是consensus。突破天花板的路径只有一条:注入非共识的视角。

每个人都有自己的非共识视角。你的判断标准,你的审美偏好,你从失败中提炼出的教训,你对什么重要什么次要的直觉。这些东西在AI的训练数据里不存在,永远不会被任何版本的模型自动学到,因为它们只属于你。

硅基大脑的绝对客观最终只能抵达聪明的平庸,能将其重塑的,唯有你积累数十年、充满偏见与品味的人类灵魂。

Comments