科研与技术前沿模型架构检索与知识系统

论文导读:知识容量的另一把尺子

2026 年 4 月,一篇 arXiv 论文(Incompressible Knowledge Probes)从一个具体的故事切入。作者李博杰连续三年用同一个问题测试每一个新模型——“你知道 USTC Hackergame 吗?”这是一年一度的 CTF 比赛,题目是中文命名的、带有特定文化背景的冷门挑战。2024 年 5 月的 GPT-4o 知道有这个比赛存在,但编出了假的题目名称。九个月后,Claude 3.7 Sonnet 能准确列出 Hackergame 2023 的 19 道题目。到了 2026 年 4 月,Kimi K2.6、Claude Opus 4.7 和 Gemini 3.1 Pro 已经能连续数年列出具体题目。

这不仅是某场比赛的趣闻。它揭示了一个更一般的逻辑:一个模型掌握多少无法靠推理推导出来的事实,根本上受限于它的参数规模。闭源实验室可以不公布参数量,但模型对冷门事实的了解程度很难完全藏住。

这篇论文提出的 IKP(Incompressible Knowledge Probes)框架,就是用来测量这个维度的。

它测的不是参数量,是知识容量

IKP 测量的不是模型在硬件上占了多少权重,而是另一件事:模型的有效知识容量(effective knowledge capacity)——它的冷门事实知识,相当于多大参数量的开源模型。同一个参数量下,数据配比、训练工艺和安全对齐都能让知识容量偏离真实值,两者不是同一回事。

这个区别很重要,因为模型的能力可以分成性质不同的两种。一种是推理能力(reasoning、parsing、instruction following、tool use),可以靠更好的架构、训练配方、蒸馏和 post-training 压缩到更少的参数里。另一种是事实容量(long-tail factual associations——某个机构的成立年份、某个低引用研究者的具体工作),更接近存储问题。Allen-Zhu & Li 2025 在合成事实实验中发现,语言模型约能存 2 bits/parameter 的知识,这给出了一个物理上限的参考。

推理像方法,事实像存储。这两个维度共享同一组参数预算,消耗的却是不同资源。近几年小模型在很多 benchmark 上追上大模型,主要说明方法类能力的效率在提升。事实容量这一侧,仍然保留很强的参数依赖。

IKP 怎么测:三道规则

这套探针的设计围绕三个原则。

第一,它用的是 1,400 道问题,按稀有度分成七个 tier(T1 最普遍,T7 最冷门)。这些不是普通的 factual QA——它们刻意排除了可以靠推理推导出来的问题,只挑那些”必须真正记住”的事实。

第二,冷门度分层是核心。345 个 researcher probe 要求模型说出某位计算机科学家的研究领域,并提供一项可验证的 artifact——一篇论文标题、一个命名系统、一个机构或合作者。模型如果只是猜一个听起来合理的子领域,但说不出具体工作,会被判 weak;编造的证据会被扣分。另外 557 个 Wikidata 探针从维基数据中采样机构成立年份、首都等属性,按浏览量的四分位数划定稀有度。

第三,答错不如不说。评分规则是:正确 +1,weak +0.5,拒答 0,错误 -1。这样一来,自信地编造比说”不知道”后果更差,抑制了模型的过度自信倾向。

结果:有信号,但误差很大

IKP 在 89 个已知参数的开源模型上做了校准(从 135M 到 1,600B,覆盖 19 家厂商),发现 IKP 准确率与 log10(参数量)呈线性关系,R²=0.917。这个相关性很强,但预测精度有限:90% 预测区间约 3 倍。换句话说,对一个闭源模型,IKP 能估算出它的有效知识容量相当于多大参数量,但这个估算可能偏差到 3 倍左右。

用这个标尺看前沿闭源模型,GPT-5.5 的有效知识容量约为 9.7T,90% 区间 [3.2T, 28.7T];Claude Opus 4.6 约为 5.3T,[1.8T, 15.6T];GPT-5、Claude Opus 4.7、o3、Grok-4 大致落在 3.0T 到 4.1T。不过必须注意,1T 以上的开源锚点只有 DeepSeek V4 Pro 和 Kimi 系列两个点。前沿闭源模型的估计实际上是外推,不确定性可能比全局 3 倍区间更大。这个区间不适合做精密排序,但已经足够看出数量级:它把讨论从几百 B、几 T 还是几十 T 的模糊猜测,收窄到一个可比较的范围里。

这条区分,真正有用的地方

IKP 最有价值的产出,是把一个笼统的”模型能力”分成了两种资源。

第一层看小模型追赶大模型这件事。 过去几年有一个很强的行业体感:同样的 benchmark 分数,需要的模型越来越小。Densing Law(Huang et al.)就是把这个体感量化了一下:达到同一 benchmark 分数所需的参数密度,大约每 3.5 个月翻倍。简单说,2026 年的小模型可以在一些题目上追上 2023 年的大模型。

IKP 问的是另一件事:如果只看冷门事实,新模型是不是在同样参数量下知道得更多?论文的结果是,在控制参数量后,新旧模型之间看不出稳定提升。这里的含义不是推翻 Densing Law,而是它更适合描述推理和解题类 benchmark,不能直接外推到长尾事实容量。小模型在推理题上追平大模型是好消息,但不能自动推断它也记住了同样多的冷门事实。

第二层看 MoE。 IKP 的数据有一个直接的实际意义:MoE 的 total params 拟合度(R²=0.79)远好于 active params(R²=0.51)。这意味着事实知识分布在所有专家权重中,不只存在于每 token 激活的那一部分。Active params 是计算成本,total params 才是知识存储池的大小。一个 MoE 模型”只激活 40B”并不等价于它只有 40B 的知识容量。

第三层看 researcher recognition。 IKP 的一个有趣发现是,citation count 和 h-index 只能解释约 35% 的模型识别率方差。真正起决定作用的是一组更复杂的因素:你是否有一个被广泛使用的 artifact(如 FlashAttention、IPFS)、你的名字是否容易混淆、你的子领域在训练语料中的衍生内容密度。模型记住的不是论文本身,而是围绕工作产生的可以反复提及的衍生内容。

三个必须交代的边界

以上判断都依赖于 IKP 作为一个测量工具的有效性。这套工具刚发布,尚无独立复现,有三组边界需要放在文章中间说清楚。

第一,它测量的是有效知识容量,不是真实参数量。1T 以上的校准点稀疏,前沿模型是外推,90% 预测区间有 3 倍。GPT-5.5 的 [3.2T, 28.7T] 区间意味着它可以被认为与 3T 或 28T 的模型有可比的事实知识容量。这不是精密测量。

第二,API 行为会影响读数。安全对齐会让模型知道但不说——尤其 Anthropic 的 Haiku 系列和 GPT 的 nano/mini 变体有明显低估。论文自己的数据显示,Claude Sonnet 4 在 T5 上的拒答率从前代的 54% 升到了 88%,这本质上是 alignment 策略带出的 artifact,不是知识损失。同样,如果闭源 API 后台做了检索增强,IKP 也无法区分知识来自权重还是检索系统。论文用 T7 几乎全部近零作为反证,但这不能绝对排除。

第三,这套探针公开在 GitHub 上,提升了可复现性,但也让未来的评估面临 contamination 风险。论文的对策是探针的生成方法可复现——Wikidata 分档采样和 DBLP 分档采样的流程可以在几小时内重新生成一套等效探针。此外,来自 LifeArchitect.ai 的批评指出,IKP 在部分模型上匹配良好,但在 GPT-4、o1 和部分 DeepSeek/Kimi 模型上有明显偏差。这些张力不推翻”事实容量有信号”的基本判断,但它们提示 IKP 读到的是知识容量、refusal 和 post-training 的混合信号,而非单纯的参数量。

回到参数量

闭源实验室不公布参数量,已经是一个持续数年的行业默契。Inference economics 的 2 倍以上不确定性,也让参数量很难成为判断依据。IKP 没有解决”GPT-5.5 到底多少参数”这个问题——它的预测区间太宽,不能当作真实参数量读数。但 9 倍区间仍然有用,因为数量级至少能看出来。它把参数量从一个笼统的”能力分数”,重新锚定到长尾事实存储这个更具体的维度。

以后每当看到”小模型追平大模型”“蒸馏追赶前沿”这类说法时,可以多问一句:追平的是哪种能力?如果是推理格式、解题方法、instruction following,小模型和蒸馏确实能压缩。如果是长尾事实、冷门专家知识、具体实体属性,那要么需要更大的参数池,要么需要检索系统来补。这跟 IKP 之前的结论一致——Kandpal et al. 2023 在 BLOOM 系列上已经看到,长尾事实准确率与模型规模呈 log-linear 关系,R²=0.98,每增大一个数量级,准确率约提升 14 到 15 个百分点,和 IKP 的 14.7pp/decade 一致。

参数量没有在所有维度上同等重要。它在 benchmark reasoning 上的重要性正在下降,在长尾事实容量上仍然重要。这不是一篇论文能定论的结论——IKP 刚刚发布,尚无独立复现——但它提供了一种可以持续跟踪的测量思路,也给出了一个任何时候讨论模型规模时都必须回答的问题:你说的规模,到底指的是哪种容量?

鸭哥每日手记

日更的深度AI新闻和分析