为什么AI只会说正确的废话，以及怎么把它逼出舒适区

三周前，OpenAI发了一篇关于Harness Engineering的博文。我和社区里一个很厉害的朋友老王各自让自己的Agent做了一份深度调研。我们特意用了同档次的LLM（Claude Opus 4.6 vs GPT-5.4），同一个调研skill，同一个搜索工具Tavily，同一个agentic后端OpenCode，甚至同样的prompt，唯一不同的是两个Agent背后的context：我的Agent接入了我过去一年积累的判断框架和认知体系，老王的Agent没有。结果两边的AI给出了风格完全不同的分析。拿OpenAI和Cursor在harness架构上的收敛来举例：

第一种报告（行动建议部分）： 先做知识底座，再做更强agent。给仓库建立清晰的AGENTS.md目录索引；把产品规则、架构规则、执行计划、质量标准写进repo；用CI检查文档freshness和cross-link completeness。

第二种报告（同一话题的分析）： 完美主义是吞吐量的敌人。OpenAI采用最小阻塞合并、后续修复的策略。Cursor发现要求100%正确性会导致系统停滞，接受小而稳定的错误率反而更高效。两者都接受了「纠错比等待便宜」的权衡。

差异在哪？第一种给了一份checklist：正确、安全、换任何人来问AI都能得到差不多的东西。第二种给了一个insight：跨两个不同来源提炼出一个有立场的判断（完美主义是敌人），并归纳出底层权衡（纠错比等待便宜）。一个是搬运工，一个是分析师。两篇完整报告可以在这里对比：第一种报告和第二种报告。

如果你回忆一下自己用AI做分析性工作的经验，大多数AI的产出其实都像第一种报告：找不出明显的错误，但读完之后没有任何启发。属于正确的废话。第二种极其少见。这种普遍的平庸来自一个LLM训练的底层原因。

LLM的Consensus天花板

这个原因是：LLM被训练的方式就决定了它的默认输出是consensus（共识）。

LLM训练的本质是next token prediction，它的意思是：每一步输出概率最高的token。概率最高意味着最多人会认同，也就是consensus。RLHF在这个基础上更进了一步：安全对齐专门惩罚有争议的、带有强烈立场的输出，鼓励平衡、全面、没有明显偏向的回答。两层机制叠加，LLM的默认行为就是回归均值。

这个默认行为导致了一个相当严重的缺陷。比如过去两年认知方向最火的产品是Deep Research，但仔细看它做的事情：自动化的高频搜索，多文档综合，扩大信息覆盖面。这其实和都Deep没有关系，充其量是Wide Research。换言之，Deep Research是一个非常有误导性的名字。它解决的问题是信息不对称：你以前不知道的，现在知道了。但是真正的深度来自另一个维度，来自认知不对称。面对同样一份行业报告，一个从业二十年的老兵和一个刚入行的新手看到的东西完全不一样。老兵的优势在于他有一套经过多年试错沉淀下来的认知系统，知道哪些数据是噪音，哪些异常值预示着趋势。小白没有这个滤镜，就算拿到10倍厚的报告也没办法做出同样质量的决策。

这就是为什么你很少听到有人说「用了AI之后我有了以前从来没有过的深刻判断」。AI可以把一个小白提升到大众平均水平，因为它的训练数据就是大众平均水平的压缩。但对于已经在平均水平之上的人，AI的consensus输出对他的判断几乎没有增量。深刻的定义本来就是非共识，而非共识恰好是LLM被训练去规避的方向。

但是，这个gap意味着一种浪费，一个机会。AI只能输出consensus的话，你就没法把真正的thinking委托给它。不说AGI之类的长远前景，就看日常应用，它能当秘书帮你整理信息，但是当不了顾问/教练，帮你做判断。之前的AI管理系列文章里讨论过这个区别，但那时还没有找到系统性的突破口。

那突破口在哪？

AI已经从CPU Bound走向Memory Bound

面对AI说正确的废话，大家的直觉是去优化模型：换更好更贵的模型、改更复杂的prompt、加更完备的工具，Multi-Agent、Harness全给它整上。这些做法都在优化同一个维度：模型的智能。

但是开头的实验已经告诉我们答案了。两边的模型智能几乎一样，工具一样，prompt一样。唯一不同的是context：第二种报告背后有一年积累的判断框架，第一种没有。结果一个输出checklist，一个输出insight。

变量只有一个，结论很显然：（在模型智能跨过一道坎以后）决定产出性质的是context，而不是模型的智能。其实这种转变在计算机历史上发生过：CPU快到一定程度之后，继续升级CPU就没有意义了，主要的提升都来自内存架构。而LLM现在到了同样的拐点。

这个判断是反直觉的。这是因为一说起AI，大家第一反应就是模型。我们经常看到模型升级了，却从来没看到过context升级了这种说法。但这个不对称本身就揭示了一个更深刻的趋势。每次模型升级，智能就更便宜一点，你用的模型别人也能用。但你的context是只属于你的，模型升级不会让它贬值。所以持续投入在一个不断贬值的维度（模型智能）上，收益递减；投入在一个不贬值的维度（个人context）上，收益累积。

既然瓶颈在context，那要突破consensus天花板，就需要用足够密度的个人认知上下文压过训练时的consensus prior。几句话的system prompt做不到这件事。你的品味、你对优先级的直觉、你在某个领域反复验证过的判断框架，这些东西是高维的，散落在过去无数次决策和反馈里，几句话根本说不清楚，而需要一套系统来采集和精炼。

怎么把LLM从Consensus的舒适区域里面逼出来

为了实现这个目标，我花了一年时间，逐渐构建了一整个系统，发展为三个互相支撑的要素。每一个要素都在回应一个具体的问题。

大量积累

第一个问题是：你的认知框架到底是什么？

这个问题看起来简单，实际上非常困难。厉害的人通常说不清楚自己哪里厉害，就算能说上来，往往也是错的。很多他觉得「没什么大不了」的肌肉记忆一样判断，恰恰是他最独特的地方。这部分一定要一个第三方才能捕捉到。

所以捕捉Context的起点是采集客观的行为数据，而不是单单靠自己写prompt。我持续了一年相关实验，包括录音转写、会议记录、微信对话导出、和AI的每次对话、每次纠正甚至发飙，都积累成了本地文件。这些是我们在真实决策场景下展现出来的判断逻辑。

注意，我们自己很难从里面提取模式，因为我们太接近它了。这往往需要一个旁观者来看，AI在这件事上是个合适的旁观者。因此，我把所有数据放在同一个文件夹里，AI打开就能看到所有内容，对任何项目做cross-reference。这是context density的基础。

分层提炼

第二个问题是：原始数据里那么多噪声，怎么把信号找出来？

你今天做的某个决策可能是因为没睡好，可能当时信息不全，也可能就是随机选的。如果把原始数据直接给AI（比如Mem0的做法），AI面对的解读空间太大了。一个具体事件可能体现了很多不同的原则，有些决策甚至是arbitrary的。因此，我们需要一个精炼过程。

这里我用了一个非常简单的筛选标准：稳定性。一个判断如果是跨场景、跨时间反复出现并保持一致的，它大概率是我们认知结构的一部分。不稳定的是情境反应，稳定的才是我自己。

受OpenClaw启发，这个精炼分为三层。L1 Observer每天扫描文件变动，提取有意义的观察，写个流水账。L2 Reflector每周合并重复、清理过期信息、识别跨项目模式，负责把信号和噪声分离。L3 Axiom从稳定模式中蒸馏决策原则，只保留真正代表你的东西。经过了一年的积累和几周的精炼，目前我的系统里积累了44条axiom，覆盖我的技术选择、沟通风格、商业判断等等主观偏好。

这里我们和Mem0等等流行记忆系统的核心区别在于蒸馏的深度。Mem0蒸馏到事实层就停了：「你偏好TypeScript」「你住在上海」。但是我们的系统继续往上走，蒸馏到判断原则层：「评估技术方案时，你怎么权衡可维护性和性能，优先级排序是什么」。事实告诉AI你是谁，判断原则告诉AI你怎么想。让AI产出从consensus变成non-consensus，需要的是后者。

按需加载

第三个问题是：这么多context，怎么给到AI？

全部塞进去是不行的。Context window有限，而且无关信息会稀释有效信号。一个写代码的任务带入所有的商业判断原则没有意义，一个做调研的任务也不需要加载代码架构偏好。

解决方案是现成的skill系统：每个skill是一个针对特定任务类型的context子集，包含这类任务最相关的axiom，判断标准，和常用工具。做调研时加载调研的分析框架，写代码时加载架构原则和审阅偏好。这和CPU的内存层级也是类似的：L1 cache是AGENTs.md，L2对应skill库的索引，告诉AI如果需要什么信息的话往哪找，L3则对应具体的skill文件。按需加载，渐进披露，每层只在需要的时候被调用。

循环

三个要素运行起来之后，一件有意思的事情发生了：知识产品开始涌现，而每个产品在消费context的同时也在产生新的context。

鸭哥AI手记是基于这个上下文系统写的每日AI行业简报，每一期都在消费axiom和skill，同时产出新的观察进入observation库。具体的领域调研报告是带判断标准的深度分析，每篇报告在生产过程中同时也在更新相关领域的认知框架。这两个系列的报告质量都很高，被大家广泛订阅和转发。这证明了循环可以在足够高的context density下自然形成，在持续运行中不断保持活力。

这个系统的本质是把你的bias注入AI。有品味的bias是深度的来源，但bias也可能是质量不高的偏见。不过把bias显性化这个过程本身就很有意义。在没有这个系统之前，你的bias散落在决策里，你意识不到它的形态，甚至存在。经过采集、精炼、蒸馏之后，你能看到自己面对某类问题时倾向于优先考虑什么、倾向于忽略什么。这种自我认知的进步，单独就有价值。

回到开头的实验。老王的AI输出consensus，因为它能看到的context几乎是空的，训练时的prior没有被任何个人认知覆盖。我的AI输出有判断力的分析，因为它有一年积累的判断框架在背后。同一个模型，context density不同，产出的性质就不同。

开源的参考实现

但是注意，这个系统需要时间积累，需要一定的技术能力，需要持续维护的意愿。但换一个角度理解这个成本：「改一下system prompt就让AI瞬间懂你」或者「换一个更好的模型就够了」，这些捷径从原理上就走不通。Consensus prior太强，几句话压不过去，换模型只是换了一个consensus的来源。对于一个这么重要的问题，it deserves a system。从源头采集、分层精炼、按需加载、循环更新，每一步都有它的理由。并不简单，但特别有帮助。

我们把这个系统的完整结构开源了：github.com/grapeot/context-infrastructure。这个repo是一个参考实现，包含了我们实际在用的44条axiom、核心skill文件、三层记忆系统的代码、以及文章里提到的所有组件。

需要说清楚的是：这个repo的主要价值是让你看到一个运行了一年的系统长什么样，而非让你克隆下来就能直接用。你可以打开它跟AI对话，问「这个观点鸭哥会怎么看」，立刻体验到有context和没有context的差异。但要想让AI真正变成你自己的，没有捷径。你需要从头开始采集你的行为数据，设置你自己的计划任务，让系统从你的决策历史中蒸馏出属于你的判断原则。别人的skills是别人的视角，参考可以，替代不行。

偏见与硅基大脑

总之，AI变得更聪明，并不自动让它变得更深刻。更聪明的consensus依然是consensus。突破天花板的路径只有一条：注入非共识的视角。

每个人都有自己的非共识视角。你的判断标准，你的审美偏好，你从失败中提炼出的教训，你对什么重要什么次要的直觉。这些东西在AI的训练数据里不存在，永远不会被任何版本的模型自动学到，因为它们只属于你。

硅基大脑的绝对客观最终只能抵达聪明的平庸，能将其重塑的，唯有你积累数十年、充满偏见与品味的人类灵魂。

Computing Life