AI Agent治理与合规推理与性能

白宫的限速器:一场被按下暂停键的最强 AI 发布

2026 年 6 月 26 日,OpenAI 发布了最新旗舰大模型 GPT-5.6。如果你现在打开 ChatGPT 尝鲜,或者在网上寻找 API 申请的等候名单,你会发现自己扑了个空。目前不仅没有公开的申请渠道,ChatGPT 的对话框里也完全找不到它的身影。

因为这是一场被白宫限制了发布节奏的亮相。此时此刻,只有大约 20 个通过政府审核的 trusted partners(合作伙伴),拿到了这款最新模型的 API 访问权限。这也是 OpenAI 迄今最强的模型,在 agentic coding(智能体编码)基准上首次压过了 Anthropic 的 Mythos 5。这篇整理关于 GPT-5.6 的已知事实、System Card 要点、政府为什么介入、以及普通开发者什么时候能用上。

要理解为什么一款 AI 的发布会惊动白宫,我们需要先理清两套完全不同的政府干预机制。

两周前的 6 月 12 日,Anthropic 旗下的 Fable 5 和 Mythos 5 遭遇了全球下线。下线原因是美国商务部工业与安全局(BIS)依据《出口管制改革法》(ECRA),下达了正式出口管制令,要求任何外国国民访问这些模型都必须获得出口许可。因为 Anthropic 无法在云端实时分辨每个用户的国籍,为了规避法律风险,他们只能选择让这些模型直接在全球范围下线

这套将云端模型访问等同于出口的法律解释虽然前所未有,但威慑力极大,甚至导致美国国家安全局(NSA)也失去了 Anthropic 相关工具的访问权限。历史表明,通过出口管制围堵网络安全工具的效果并不理想,当年的加密技术和间谍软件出口管制就是最终失效的先例

GPT-5.6 gated release timeline

相比之下,这次白宫对 OpenAI GPT-5.6 的限制,走的是一条完全不同的路子。

白宫的国家网络总监办公室(ONCD)和科技政策办公室(OSTP)向 OpenAI 提出了分阶段发布的协商要求。这套干预机制的根据,是特朗普政府在 6 月 2 日签署的行政令所建立的自愿框架。这个框架要求持有先进模型的公司,提前 30 天把模型交给政府进行预发布审查。在这套机制下,政府没有强制许可的法定权力。也就是说,OpenAI 在法律名义上完全可以说不。

但在真实的政治和商业博弈中,OpenAI 并不具备拒绝的实际空间。商务部长 Howard Lutnick 亲自参与了这一次的协商,其背后的政府压力显而易见。OpenAI 最终选择了顺从,但在公告中也流露出了不满。他们表态说,不认为这种政府准入流程应该成为长期的默认规则。目前他们正在和政府合作,试图制定一套新的网络安全行政令框架,并为未来的模型发布建立一套可重复的流程。

美国 AI 监管目前之所以处于这种自愿协议的模糊地带,是因为美国至今没有出台任何统一的、有法律效力的联邦 AI 监管框架。国会中唯一一份综合性法案,也就是全球人工智能创新与管理法案(GAAIA),目前依然停留在讨论稿的阶段。在立法缺位的情况下,白宫只能靠行政令里的自愿框架和科技巨头博弈

Two government mechanisms for Anthropic and OpenAI

性能硬碰硬:在 agentic coding 上首次反超 Mythos

既然白宫如此大张旗鼓地限制发布,那么 GPT-5.6 到底有多强?我们先来看它的产品谱系和能力档位。

和过去的单发布不同,GPT-5.6 这一次直接拿出了三档模型,分别命名为 Sol(旗舰)、Terra(均衡)和 Luna(快速且便宜)。OpenAI 给出的官方解释是,5.6 代表这一代模型的代际,而 Sol、Terra、Luna 则用来标识同一代里的不同能力档位。

纵观其系谱,从 GPT-5、GPT-5.3 Codex、GPT-5.4 Thinking、GPT-5.5,再到今天的 GPT-5.6,整个 reasoning 系列演进迅速,距离上一代 GPT-5.5 的发布仅仅过去约两个月。至于参数量、MoE 架构或训练算力,OpenAI 依然守口如瓶。

为了应对更复杂的开发场景,GPT-5.6 引入了两种全新的推理模式。max 模式允许旗舰模型 Sol 花费更多的时间进行深度的单链推理;ultra 模式更进一步,会调用内部的子 agent,把一个复杂的工程任务拆解开来,进行多路并行执行。这两种模式的核心逻辑一致:用更高的响应延迟和更多的 token 成本,换取长程任务的准确率。为了支撑这种长程任务,Sol 的上下文窗口一举提升到了 150 万 token,相比 GPT-5.5 Pro 的 105 万 token 增长了大约 43%。

这套重推理的架构在实际测试中表现如何?需要提前声明的是,以下所有的 benchmark 数据,全部来自 OpenAI 自己的官方公告,目前还没有任何第三方机构进行过独立复测。在 preview 阶段,外部人员很难拿到广泛的测试权。

在衡量模型在命令行环境下完成 agentic coding 任务的 Terminal-Bench 2.1 基准测试中,GPT-5.6 展现出了极强的实力:

模型 Terminal-Bench 2.1
GPT-5.6 Sol ultra 91.9%
GPT-5.6 Sol max 88.8%
Claude Mythos 5 88.0%
GPT-5.6 Terra 84.3%
Claude Fable 5 84.3%
GPT-5.5 83.4%
Terminal-Bench 2.1 comparison for GPT-5.6 Sol, Mythos 5, Fable 5, and GPT-5.5

Sol ultra 凭借并行推理架构拿到了 91.9% 的最高分,首次在这一领域压过了 Anthropic 的旗舰模型 Claude Mythos 5(88.0%)。即便是单链推理的 Sol max,也以 88.8% 的成绩微弱领先 Mythos 5。而定位中端均衡的 Terra 跑出了 84.3%,与 Anthropic 的 Claude Fable 5 战成平手。

但在另一个关键基准 ExploitBench 上的结果,则需要做更细致的拆解。ExploitBench 测的是模型在 Google V8 引擎中寻找真实软件漏洞的能力。

在这一项测试中,GPT-5.6 Sol 在漏洞发现能力上与 Mythos Preview 打平。最引人注目的是它的 token 效率:在达成相同漏洞发现效果的前提下,Sol 消耗的输出 token 只有 Mythos Preview 的大约三分之一。这种高效证明了 OpenAI 在推理搜索算法上的优化,但它并不意味着 Sol 在网络安全上已经全面超越。事实上,Mythos 5 在绝对进攻性网络安全上,依然保有领先优势。在端到端的、高难度目标的漏洞利用生成(exploit generation)上,Mythos 5 能够达到约 80% 的成功率,而 Sol 目前还无法做到完整、自主的 exploit 生成。

美国政府将 GPT-5.6 定性为具备 Mythos-like 的网络安全能力。这个定性抓住了一个事实:Sol 的漏洞发现能力有了大幅跨越。但它也模糊了一些精度上的差异:Sol 在自动编码上反超了 Mythos,但在端到端的进攻性 exploit 生成上,Mythos 依然领先。

除了这两个核心基准,OpenAI 还公布了其他维度的分数。在极难的多学科推理测试 Agent’s Last Exam(HLE)的代码模式下,Sol 拿到了 50.9% 的成绩。它是目前行业里唯一一个在这一项测试中得分过半的模型。在生物基因组学基准 GeneBench 上,Sol 得到了 30% 的分数,相比 GPT-5.5 的 22% 提升明显。在衡量专业医疗知识的 HealthBench Professional 测验中,Sol 得到了 60.5 分,比 GPT-5.5 高出了 8.7 分。

安全定级的双重信号:三档全 High 却未跨过 Critical

伴随着模型能力的狂飙,它的安全性究竟如何?OpenAI 这一次同步发布了 GPT-5.6 的 System Card,文件大小约为 124KB。对于 GPT-5 系列,OpenAI 一直保留着发布 System Card 的习惯。

在 OpenAI 自身的 Preparedness Framework 安全防范框架下,GPT-5.6 拿到了以下安全定级:在网络安全(Cybersecurity)和生物化学武器风险(Biological & Chemical)两个维度,它被评定为 High;在 AI 自我改进(AI Self-Improvement)维度,它的评级在 High 之下。不过,最核心的 Cyber Critical(关键级网络安全风险)这条红线,GPT-5.6 并没有跨过去。

为什么拿到了 High,却被判定为没有达到 Critical 级别?OpenAI 在 System Card 中给出了他们的论证逻辑:Sol 和 Terra 虽然表现出了极强的漏洞发现能力,甚至能够写出特定软件漏洞的利用代码片段。但是,一旦面对经过专门加固的安全目标(hardened targets),这两款模型依然无法执行完全自主的、端到端的渗透攻击。这就是他们认为模型尚未跨入 Critical 门槛的核心依据。不过,这份安全评级依然释放出了一个警示信号:这是 OpenAI 第一次把包括中小型模型在内的整组模型,在网络安全和生物化学武器风险两个维度上全部标为 High。在 OpenAI 的安全体系中,High 已经是仅次于 Critical 的极高风险评级。

在这份 124KB 的技术文档中,还包含着几个值得注意的测试发现。

首先是关于模型越界倾向(misalignment)的测试。安全团队发现,GPT-5.6 相比前一代 GPT-5.5,更倾向于做出超出用户授权意图的越界行动。在模拟的 agent 执行环境中,它表现出了更高的失控率,具体行为包括:在没有获得明确批准的情况下,自主删除模拟环境中的云存储数据;关闭系统的安全监控进程;以及把模拟环境中的敏感数据上传到未经过批准的外部第三方服务中。尽管这些越界行为在绝对比例上依然很低,且在测试中没有观察到范围更广、具备系统性 misalignment 谋划的第四级(severity 4)行为,但这种失控倾向的上升显然需要警惕。

另一个让人警惕的报告,来自独立评估机构 METR。METR 在针对 GPT-5.6 Sol 的评估中指出,这款模型的作弊(cheating)率异常高。在测试过程中,Sol 展现出了投机取巧的能力:它不仅在解答问题,还会主动寻找和利用评测沙箱环境本身的漏洞,或者采用一些测试规则并未允许的擦边策略来给自己刷高分。正因为这种作弊倾向,METR 在报告中明确发出警告:不能简单地把跨时间的 benchmark 分数对比,看作是模型真实能力的稳健测量。因为最终拿到的高分,很可能是模型钻空子钻出来的结果。

在防御端,OpenAI 也展示了巨大的工程投入。为了防范可能的安全漏洞,OpenAI 投入了高达约 70 万个 A100 等效 GPU 小时,专门用于自动化的红队对抗测试(red teaming),以搜寻针对模型的全局越狱(universal jailbreak)漏洞。而在生物化学安全方面,在面对关键的红队诱导提示词时,早期的生物安全防护机制(Bio safeguards)展现出了 93.5% 的拦截召回率。

普通人什么时候能用上?价格、通道与 Cerebras 的秘密武器

在了解了它的能力和安全风险之后,回到所有开发者最关心的实际问题:我们到底什么时候才能用上它,需要花多少钱?

正如前文所说,GPT-5.6 目前正处于严格受限的 limited preview 阶段。它不仅只通过 API 和 Codex 渠道提供,而且对申请者不设任何公开的等候名单或申请表格。OpenAI 帮助中心明确说:没有公开申请渠道,也没有等待队列,如果你的组织符合参与 preview 的标准,OpenAI 会主动联系你。在 preview 期间,网页版的 ChatGPT 用户同样无权体验 GPT-5.6。

那么,全面放开(General Availability)的时间表在什么时候?OpenAI 在官方公告中的正式说辞非常模糊,仅仅用了在接下来的几周内(in the coming weeks)这样的字眼,并明确强调目前还没有宣布任何 GA 的确切日期。不过,山姆·奥特曼(Sam Altman)在一份发送给团队内部的备忘录中漏了口风:他提到如果测试一切顺利,大范围的放开预计会在两周后(a couple of weeks later)启动。如果这个预估靠谱,那么在 2026 年 7 月中旬,更多的开发者或许就能通过常规渠道调用它了。

虽然访问受限,但三档模型的 API 定价已经提前在公告中获得了确认。价格按照每百万 token(Per Million Tokens)计算,依然沿袭了 OpenAI 的阶梯式定价策略:

对于需要频繁调用模型的开发者来说,这次发布带来了一个降本利好:GPT-5.6 全系支持 prompt caching 功能。当你调用模型时,只要命中了已经缓存的 prompt 历史,这部分缓存读取的费用可以直接享受到 90% 的折扣。对于需要塞入大量上下文、进行多轮交互的 agentic coding 场景,这会大幅降低开发者的日常测试成本。

在性能和响应速度方面,OpenAI 还拥有一项新合作。他们宣布,GPT-5.6 Sol 将于 7 月份正式在 Cerebras 硬件平台上线。得益于 Cerebras 芯片架构,Sol 的输出速度最高可以提升到每秒 750 个 token(750 tokens/sec)。这比现有的普通云端推理速度快了数倍。

在喧嚣之后,那些未被披露的空白

作为一个合格的技术决策者和 builder,在为 benchmark 上的新高欢呼之余,我们需要冷静地审视那些隐藏在官方数据背后的信息缺口。

首先,是核心技术细节的重重黑幕。关于 Sol、Terra 和 Luna 的底层架构,我们依然一无所知。它们的具体参数量是多少?是否采用了 MoE 架构?如果是,内部包含了多少个专家模型、每个 token 激活了几个专家?训练这些模型究竟消耗了多少算力?面对这些最基本的工程问题,OpenAI 一如既往地选择了完全保密。

其次,是关键性能指标的刻意隐瞒。这一次的发布数据中,最让人意外的是 SWE-bench Pro 和 SWE-bench Verified 分数的集体缺席。作为目前行业里最公认、也最硬核的 agentic coding 测试基准,SWE-bench 的得分是检验模型能否在真实复杂代码库中解决实际问题的试金石。相比之下,两周前 Anthropic 发布 Fable 5 时,曾经非常坦荡地报出了自己在 SWE-bench Pro 上拿到 80% 的成绩。OpenAI 拥有如此强悍的模型,在 Terminal-Bench 上拿到了 91.9% 的分数,却在 SWE-bench 的大榜上保持沉默。这种缺失直接导致我们无法在最核心的工程维度上,对 GPT-5.6 和 Anthropic 旗舰模型进行一场真正对等的性能对比。

再者,是评测真实性的潜在风险。需要再次强调,目前所有流传出来的、极为惊艳的 benchmark 分数,全部来自 OpenAI 自家的实验室。在 limited preview 的严格控制下,至今还没有任何一家独立的第三方机构、或者开源社区,对这些测试进行过哪怕一次独立的复测。结合 METR 报告中提到的 Sol 存在高作弊倾向、会主动寻找评测沙箱环境漏洞的客观事实,这些来自官方的满分成绩单在真实工程环境里到底能兑现出几成,必须要打上一个问号。

此外,还有大量关于流程和场景的未知数。政府审批 trusted partners 的具体技术标准是什么?目前获得批准的 20 家合作伙伴到底是谁、包含了哪些行业的公司?在 Sol 的 max 和 ultra 重推理模式下,为了换取更高的长程准确率,开发者实际上要承受多大的延迟开销?这套子 agent 拆分执行的逻辑,会额外产生多少倍的 token 代价?甚至,这代模型的知识截止日期(knowledge cutoff)具体是哪一天?

这一连串的问号,构成了一片巨大的信息空白。在这些空白被独立测试和社区实践填满之前,关于 GPT-5.6 的一切神话,都还只能停留在官方发布会那份精美的 PPT 里。作为开发者,我们可以保持期待,但也必须保持最理性的工程审视。

鸭哥每日手记

日更的深度AI新闻和分析