科研与技术前沿模型架构检索与知识系统

论文导读：知识容量的另一把尺子

发布于 2026 年 4 月 29 日

2026 年 4 月，一篇 arXiv 论文（Incompressible Knowledge Probes）从一个具体的故事切入。作者李博杰连续三年用同一个问题测试每一个新模型——“你知道 USTC Hackergame 吗？”这是一年一度的 CTF 比赛，题目是中文命名的、带有特定文化背景的冷门挑战。2024 年 5 月的 GPT-4o 知道有这个比赛存在，但编出了假的题目名称。九个月后，Claude 3.7 Sonnet 能准确列出 Hackergame 2023 的 19 道题目。到了 2026 年 4 月，Kimi K2.6、Claude Opus 4.7 和 Gemini 3.1 Pro 已经能连续数年列出具体题目。

这不仅是某场比赛的趣闻。它揭示了一个更一般的逻辑：一个模型掌握多少无法靠推理推导出来的事实，根本上受限于它的参数规模。闭源实验室可以不公布参数量，但模型对冷门事实的了解程度很难完全藏住。

这篇论文提出的 IKP（Incompressible Knowledge Probes）框架，就是用来测量这个维度的。

它测的不是参数量，是知识容量

IKP 测量的不是模型在硬件上占了多少权重，而是另一件事：模型的有效知识容量（effective knowledge capacity）——它的冷门事实知识，相当于多大参数量的开源模型。同一个参数量下，数据配比、训练工艺和安全对齐都能让知识容量偏离真实值，两者不是同一回事。

这个区别很重要，因为模型的能力可以分成性质不同的两种。一种是推理能力（reasoning、parsing、instruction following、tool use），可以靠更好的架构、训练配方、蒸馏和 post-training 压缩到更少的参数里。另一种是事实容量（long-tail factual associations——某个机构的成立年份、某个低引用研究者的具体工作），更接近存储问题。Allen-Zhu & Li 2025 在合成事实实验中发现，语言模型约能存 2 bits/parameter 的知识，这给出了一个物理上限的参考。

推理像方法，事实像存储。这两个维度共享同一组参数预算，消耗的却是不同资源。近几年小模型在很多 benchmark 上追上大模型，主要说明方法类能力的效率在提升。事实容量这一侧，仍然保留很强的参数依赖。

IKP 怎么测：三道规则

这套探针的设计围绕三个原则。

第一，它用的是 1,400 道问题，按稀有度分成七个 tier（T1 最普遍，T7 最冷门）。这些不是普通的 factual QA——它们刻意排除了可以靠推理推导出来的问题，只挑那些”必须真正记住”的事实。

第二，冷门度分层是核心。345 个 researcher probe 要求模型说出某位计算机科学家的研究领域，并提供一项可验证的 artifact——一篇论文标题、一个命名系统、一个机构或合作者。模型如果只是猜一个听起来合理的子领域，但说不出具体工作，会被判 weak；编造的证据会被扣分。另外 557 个 Wikidata 探针从维基数据中采样机构成立年份、首都等属性，按浏览量的四分位数划定稀有度。

第三，答错不如不说。评分规则是：正确 +1，weak +0.5，拒答 0，错误 -1。这样一来，自信地编造比说”不知道”后果更差，抑制了模型的过度自信倾向。

结果：有信号，但误差很大

IKP 在 89 个已知参数的开源模型上做了校准（从 135M 到 1,600B，覆盖 19 家厂商），发现 IKP 准确率与 log10（参数量）呈线性关系，R²=0.917。这个相关性很强，但预测精度有限：90% 预测区间约 3 倍。换句话说，对一个闭源模型，IKP 能估算出它的有效知识容量相当于多大参数量，但这个估算可能偏差到 3 倍左右。

用这个标尺看前沿闭源模型，GPT-5.5 的有效知识容量约为 9.7T，90% 区间 [3.2T, 28.7T]；Claude Opus 4.6 约为 5.3T，[1.8T, 15.6T]；GPT-5、Claude Opus 4.7、o3、Grok-4 大致落在 3.0T 到 4.1T。不过必须注意，1T 以上的开源锚点只有 DeepSeek V4 Pro 和 Kimi 系列两个点。前沿闭源模型的估计实际上是外推，不确定性可能比全局 3 倍区间更大。这个区间不适合做精密排序，但已经足够看出数量级：它把讨论从几百 B、几 T 还是几十 T 的模糊猜测，收窄到一个可比较的范围里。

这条区分，真正有用的地方

IKP 最有价值的产出，是把一个笼统的”模型能力”分成了两种资源。

第一层看小模型追赶大模型这件事。 过去几年有一个很强的行业体感：同样的 benchmark 分数，需要的模型越来越小。Densing Law（Huang et al.）就是把这个体感量化了一下：达到同一 benchmark 分数所需的参数密度，大约每 3.5 个月翻倍。简单说，2026 年的小模型可以在一些题目上追上 2023 年的大模型。

IKP 问的是另一件事：如果只看冷门事实，新模型是不是在同样参数量下知道得更多？论文的结果是，在控制参数量后，新旧模型之间看不出稳定提升。这里的含义不是推翻 Densing Law，而是它更适合描述推理和解题类 benchmark，不能直接外推到长尾事实容量。小模型在推理题上追平大模型是好消息，但不能自动推断它也记住了同样多的冷门事实。

第二层看 MoE。 IKP 的数据有一个直接的实际意义：MoE 的 total params 拟合度（R²=0.79）远好于 active params（R²=0.51）。这意味着事实知识分布在所有专家权重中，不只存在于每 token 激活的那一部分。Active params 是计算成本，total params 才是知识存储池的大小。一个 MoE 模型”只激活 40B”并不等价于它只有 40B 的知识容量。

第三层看 researcher recognition。 IKP 的一个有趣发现是，citation count 和 h-index 只能解释约 35% 的模型识别率方差。真正起决定作用的是一组更复杂的因素：你是否有一个被广泛使用的 artifact（如 FlashAttention、IPFS）、你的名字是否容易混淆、你的子领域在训练语料中的衍生内容密度。模型记住的不是论文本身，而是围绕工作产生的可以反复提及的衍生内容。

三个必须交代的边界

以上判断都依赖于 IKP 作为一个测量工具的有效性。这套工具刚发布，尚无独立复现，有三组边界需要放在文章中间说清楚。

第一，它测量的是有效知识容量，不是真实参数量。1T 以上的校准点稀疏，前沿模型是外推，90% 预测区间有 3 倍。GPT-5.5 的 [3.2T, 28.7T] 区间意味着它可以被认为与 3T 或 28T 的模型有可比的事实知识容量。这不是精密测量。

第二，API 行为会影响读数。安全对齐会让模型知道但不说——尤其 Anthropic 的 Haiku 系列和 GPT 的 nano/mini 变体有明显低估。论文自己的数据显示，Claude Sonnet 4 在 T5 上的拒答率从前代的 54% 升到了 88%，这本质上是 alignment 策略带出的 artifact，不是知识损失。同样，如果闭源 API 后台做了检索增强，IKP 也无法区分知识来自权重还是检索系统。论文用 T7 几乎全部近零作为反证，但这不能绝对排除。

第三，这套探针公开在 GitHub 上，提升了可复现性，但也让未来的评估面临 contamination 风险。论文的对策是探针的生成方法可复现——Wikidata 分档采样和 DBLP 分档采样的流程可以在几小时内重新生成一套等效探针。此外，来自 LifeArchitect.ai 的批评指出，IKP 在部分模型上匹配良好，但在 GPT-4、o1 和部分 DeepSeek/Kimi 模型上有明显偏差。这些张力不推翻”事实容量有信号”的基本判断，但它们提示 IKP 读到的是知识容量、refusal 和 post-training 的混合信号，而非单纯的参数量。

回到参数量

闭源实验室不公布参数量，已经是一个持续数年的行业默契。Inference economics 的 2 倍以上不确定性，也让参数量很难成为判断依据。IKP 没有解决”GPT-5.5 到底多少参数”这个问题——它的预测区间太宽，不能当作真实参数量读数。但 9 倍区间仍然有用，因为数量级至少能看出来。它把参数量从一个笼统的”能力分数”，重新锚定到长尾事实存储这个更具体的维度。

以后每当看到”小模型追平大模型”“蒸馏追赶前沿”这类说法时，可以多问一句：追平的是哪种能力？如果是推理格式、解题方法、instruction following，小模型和蒸馏确实能压缩。如果是长尾事实、冷门专家知识、具体实体属性，那要么需要更大的参数池，要么需要检索系统来补。这跟 IKP 之前的结论一致——Kandpal et al. 2023 在 BLOOM 系列上已经看到，长尾事实准确率与模型规模呈 log-linear 关系，R²=0.98，每增大一个数量级，准确率约提升 14 到 15 个百分点，和 IKP 的 14.7pp/decade 一致。

参数量没有在所有维度上同等重要。它在 benchmark reasoning 上的重要性正在下降，在长尾事实容量上仍然重要。这不是一篇论文能定论的结论——IKP 刚刚发布，尚无独立复现——但它提供了一种可以持续跟踪的测量思路，也给出了一个任何时候讨论模型规模时都必须回答的问题：你说的规模，到底指的是哪种容量？