AI半导体

OpenAI 九个月流片背后：AI 在芯片设计里到底做到了什么

发布于 2026 年 6 月 24 日

2026年6月，OpenAI 发布了自研推理芯片 Jalapeño。最抓人的数字是时间：从概念到流片收工只花了九个月，OpenAI 的新闻稿直接叫它「史上最快的芯片设计」。

这条消息自然会让人联想到一个诱人的可能性：AI 已经能设计芯片了。

但翻开 Business Insider 对 OpenAI 联合创始人 Greg Brockman 的专访，会看到一组冷静得多的陈述。Brockman 解释，AI 拿到的输入是工程师已经优化过的组件，模型在给定的框架内用大量算力去搜更好的参数组合。结果是芯片面积显著缩小，也「省下了几周工期」。他特意补了一句：AI 找到的优化结果，没有一个是人类工程师想不到的。工程师团队事后看了方案，反应是「这个在我待办清单上，只是排在第二十项，自己做至少要一个月」。

这几句话把 AI 的真实贡献钉在了一个具体范围内：物理设计后段的优化搜索。芯片设计里有一个耗时的环节叫物理设计，需要决定数亿个晶体管在硅片上的具体位置，哪里挤一点、哪里松一点，既要满足走线规则又要让面积尽量小。工程师靠经验和工具一轮一轮调，AI 用算力把成千上万种摆法跑一遍，筛出工程师下一轮本来也会试到的那几种。省下的时间是真的，灌进去的算力也可观（Brockman 用的词是 “pour compute into it”）。但这个动作离设计还隔得很远，就像搜索引擎帮你找到一篇论文和搜索引擎替你写出一篇论文，是两回事。

到2026年6月24日，OpenAI 和 Broadcom 联合发布 Jalapeño 的正式公告时，措辞进一步收紧了。全文只提了一句「使用 OpenAI 模型加速部分设计和优化环节」，不再提「九个月」和「史上最快」。从专访里的坦率到公告里的克制，这个变化本身就在说明 AI 角色的真实边界。

九个月的真正功臣

既然 AI 做的只是优化搜索，那九个月这个紧凑周期是怎么来的？答案主要指向 OpenAI 的合作伙伴 Broadcom。

Broadcom 是全球专用芯片（ASIC）服务的龙头企业。在 Jalapeño 之前，它已经给谷歌 TPU、Meta、字节跳动和微软 Maia 做过定制芯片，手里有成熟的 IP 库、现成的网络芯片（Tomahawk 系列）和走台积电的稳定流片通道。OpenAI 做的是架构设计，Broadcom 做的是硅实现：把设计转化成晶体管级的物理布局、综合、封装、流片。这些环节的劳动量和经验门槛，远远超过架构本身。

CNBC 2025年10月的报道披露，双方自称「已合作 18 个月」。加上后来宣布的九个月，实际总跨度约 21 个月。所谓「九个月」大概率指的是 RTL freeze 到流片之间的这段时间。RTL 是描述芯片逻辑的代码，freeze 意味着设计不再修改，之后才进入纯工程实现。换句话说，九个月不是在白纸上画出一颗芯片，而是从设计锁定跑到芯片出厂。

Broadcom 的投资者关系新闻稿在这个细节上很诚实：OpenAI 版本里写的 “we believe to be the fastest”，到了 Broadcom 的稿子里变成了 “may be the fastest”。一家上市公司不愿意为合作伙伴的夸张叙事背书，这个降温动作比任何外部分析都有说服力。

到这里，OpenAI 这个故事的核心就说明白了：AI 做了物理设计后段的优化搜索，省了几周；紧凑的周期主要来自买了一家公司二十年的工程积累。但这是否意味着芯片设计整体上 AI 都不太行？拉远看，答案要复杂得多。

拉远看：AI 在芯片设计里的真实位置

芯片从想法到实物大致经过这些环节：架构设计，决定芯片的功能和性能目标；写逻辑代码，也就是 RTL，描述电路行为；功能验证，检查逻辑写对了没有（这是最耗时的环节，常常吃掉一半以上工期）；物理设计，把逻辑变成晶体管的物理摆放和连线；流片，交给工厂制造；最后是制造本身，光刻、刻蚀、缺陷检测。在这条链条上，AI 的表现沿着流程从后端到前端逐级递减，不存在有和没有的两极。

制造端是 AI 最成熟的阵地，也是最少进入公共讨论的一块。NVIDIA 的 cuLitho 是其中最有代表性的案例：用 500 台 DGX H100 GPU 服务器替代原本需要 4 万台 CPU 服务器的计算光刻工作，加速最高达到 40 倍，已经进入台积电量产流程。一块原本要两周处理的光刻掩模，现在能在一夜之间跑完。ASML 也承诺把 GPU 加速集成进所有光刻软件。

另一个制造端的支柱是缺陷检测。晶圆生产过程中会产生大量缺陷，需要区分哪些是真正的瑕疵、哪些是噪声。Applied Materials 的检测系统用经典机器学习做这件事，目前全球装机超过 1500 台，覆盖所有先进制程客户。这可能是芯片产业链里证据最硬、跑得最久的 AI 应用，只是一直不在大众视野里。

这里需要区分一个经常被混为一谈的概念。cuLitho 的核心不是什么新算法，而是把光刻计算从 CPU 搬到 GPU 上跑，属于硬件加速。缺陷检测用的是卷积神经网络做图像分类，这套技术从 2012 年开始就是深度学习的主场。制造端这些「最成熟」的 AI 应用，用的是十年前就成熟的技术，跟 ChatGPT 那一代的生成式 AI 没有关系。它们今天能大规模跑起来，靠的是 GPU 算力变便宜和行业逐步采纳，不是算法突破。

从制造往上走一层，到了 EDA 工具里的参数优化和验证覆盖。EDA 即电子设计自动化工具，可以理解为芯片工程师的 CAD 软件。这个环节 AI 已经变成了真正的商业产品。两家 EDA 巨头 Synopsys 和 Cadence 各自推出了强化学习驱动的优化工具，在巨大的设计空间里搜索最优参数组合。

最可靠的收益数据来自客户实名背书：三星在 2nm 工艺上使用 Synopsys 的 DSO.ai，实现了12% 性能提升、25% 功耗下降、5% 面积缩小；联发科用 Cadence 的 Cerebrus，面积缩小 5%，功耗降低 6%，生产力提升超过 50%。瑞萨的案例更直观：一个工程师用 10 天完成了过去需要多个工程师几个月的工作。验证环节，Synopsys 的 VSO.ai 给瑞萨带来了10 倍的覆盖漏洞减少和 30% 的生产力提升。

独立研究机构 SemiAnalysis 的统计提供了商业化维度的证据：Cadence Cerebrus 在两年内从 180 个流片项目涨到超过 1000 个，全球前十大数字芯片客户全部采用。但这里要处理一个容易误读的数字：100% 渗透率是采纳率，不等于每次都能显著改善。很多客户真实的体感是「用了它，结果不比手调差」，而不是每次都拿到前面那几个百分点的提升。AI 在这里起加速作用，工程师仍然定义问题，仍然做架构决策。

同样要分清的是，DSO.ai 和 Cerebrus 的核心引擎是强化学习和贝叶斯优化，不是生成式 AI。强化学习在 EDA 里的应用从 2020 年前后开始落地，到 2026 年已经是产品标配。厂商偶尔在宣传材料里贴上「生成式 AI」的标签，但底层做的事还是在设计空间里搜索最优解，不是像 ChatGPT 那样从无到有地生成内容。

再往前端走，局面开始不一样了。AlphaChip 是 Google 从 2020 年起主推的 AI 芯片设计技术，核心是用强化学习做芯片大模块的摆放。Google 反复强调它已经用于多代 TPU 的流片，这在叙事上很有分量。但 2025 年，加州大学圣地亚哥分校 Kahng 团队在 IEEE 的计算机辅助设计期刊上发了一篇论文：他们拿 Google 自己公开的预训练模型，给足算力训练到收敛，然后在公开 benchmark 上跑了一遍。结果是，经典的模拟退火算法仍然优于或持平强化学习方法，而且算得更快、更省资源。

问题的根源，另一篇独立论文 ChiPBench 的验证给出了具体解释：强化学习优化的是代理指标，比如线长和拥塞的近似值，但这些近似值和最终芯片的实际性能之间存在脱节。优化代理指标把分刷高了，不代表芯片真的更好。已用于生产和科学上更优是两回事。Google 有真实的流片记录，但在所有公开可控的对比里，强化学习没赢过经典方法。

前面三个位置用的技术，无论是 GPU 加速、卷积神经网络还是强化学习搜索，全部诞生在 2022 年之前。到了用大语言模型直接生成芯片的逻辑代码，才真正进入生成式 AI 的地盘。也是从这里开始，AI 的表现急剧下滑。NVIDIA 的研究负责人 Mark Ren 在 2025 年的一场演讲里给出了一个对比：在公开 benchmark VerilogEval 上，AI 的通过率达到 70% 以上，但换成一个更接近真实生产场景的 CVDP benchmark，通过率暴跌到 10% 到 40%。最难的那一类任务 RealBench，至今没有任何 AI 系统能解。

更意外的一个数据来自 NVIDIA 自己。他们训练的领域模型 ChipNeMo，专门针对芯片设计场景，在 RTL 生成上的得分是 43.4%，反而不如通用模型 GPT-4 的 60%。ChipNeMo 在实际工程里的真正用途，是回答工程师的问题、生成自动化脚本、做 bug 摘要，而不是替代工程师写逻辑代码。VerilogEval 的 95% 通过率听起来像 AI 已经能写芯片代码了，但那些题目都不到 100 行，是单个小模块。真实的芯片设计是数十亿晶体管、跨团队两年的系统工程。

为什么是这个分布

把上一节的四个位置并排放在一起看，一个梯度自己就出来了。制造端的 cuLitho 和缺陷检测跑得最成熟，EDA 优化跑成了商业产品，AlphaChip 有争议，LLM 生成 RTL 还在实验室。这个梯度和公司、模型、宣传力度都没关系，它指向一个更底层的因素：不同环节为 AI 提供的学习条件不一样。

制造端之所以先成熟，是因为它给 AI 的反馈又快又准。每生产一片晶圆就是一次带标签的样本，量测设备当场告诉你线宽对不对、缺陷在哪里。设计端则完全相反，一次流片的对错要等几个月芯片回来才知道，中间走的每一步都缺乏真实反馈。目标形态上也有差距。良率、缺陷密度、线宽是连续可测量的物理量，优化目标直接对应业务价值。而一颗芯片的架构该怎么设计，好坏很难写成函数，全是经验里的隐式权衡。验证输出要花多大代价，制造端同样占优：光刻参数改完后晶圆印出来一量就知道效果，缺陷判完后电镜一拍就清楚。设计端的很多决策没有这种量测真值，只能靠仿真判断，仿真本身又跟真实有差距。

犯错的代价也不在一个数量级。制造端判错一个缺陷，多复检一次，极限情况报废一片晶圆，几千到几万美元，工艺线上还有冗余兜底。设计端一个错误可能让整批流片报废，损失动辄数百万美元，加上重新流片的几个月周期。问题形态的差异同样摆在明面上。缺陷检测是图像分类，计算光刻是数值优化加物理仿真，卷积神经网络和经典优化算法在这些任务上跑了十几年。RTL 生成面对的是需要理解规格、跨模块推理、全局一致的开放域生成，大语言模型的可靠性还远没有跨过生产门槛。

制造端五条全占，所以 AI 在那里早就成了隐形的基础设施，不用上头条，每天都在赚到钱。RTL 生成几乎一条都不占，所以还停在 benchmark 阶段。中间的 EDA 参数优化和验证覆盖闭合占了两三条：目标可量化、可大规模并行实验、输出有仿真验证。所以它们变成了商业产品，但仍是加速器。

还有一层原因容易被忽略。前面那些已经跑通的环节，用的全是 2022 年以前就成熟的技术。GPU 并行计算、卷积神经网络、强化学习搜索，它们的数学基础和工程实践早就被打磨过了。真正属于这一轮 AI 浪潮的大语言模型，只在最前端、最难的那几个任务上出场，而那里恰好是它还做不好的地方。换句话说，芯片设计里「AI 能做的」和「AI 新做的」几乎完全不重叠：能做的十年前就能做，新做的还做不好。一个领域 AI 好不好用，不只取决于学习环境有多友好，还取决于你说的「AI」到底是指哪一代技术。

这对 AI builder 意味着什么

如果跳出芯片设计，把上面这套逻辑带回自己熟悉的领域，它就能变成一个判断工具。面对任何「AI 现在能做 X 了」的消息，先看反馈速度：这件事的对错是几秒钟几分钟后就知道，还是要等几个月甚至几年才能验证。再看目标形态：它追求的是一个能写下来的干净数字，还是一堆互相牵扯、难以量化的工程权衡。最后看验证成本：核对输出的代价大不大，还是每次都要靠专家反复审。

还有一个经常被忽略的问题：这条消息里说的「AI」具体是什么技术。如果是 GPU 加速、传统机器学习或强化学习搜索，那它十年前就有能力做了，今天的落地靠的是算力变便宜和行业逐步采纳，不是算法突破。如果是大语言模型和生成式 AI，那要额外看它是不是跨过了从 benchmark 到生产的门槛。很多「AI 颠覆某行业」的故事，把前者的成熟包装成后者的突破。

反馈快、目标清晰、核对代价低，用的又是成熟技术的领域，AI 大概率已经在那里赚到钱了，只是没上头条。cuLitho 和缺陷检测就是这样的例子，它们不在公众讨论里，但每天都在产生真实的经济收益。反馈慢、目标模糊、核对代价高，又依赖最新 GenAI 的领域，大概率还停在 benchmark 刷分阶段：头条很响，生产里用不上，大语言模型生成芯片代码就是典型。

回到文章开头的故事。OpenAI 的 Jalapeño 正好落在这套判断框架的每个维度上。AI 真正的价值在物理设计优化这个友好的学习环境里，省了几周工期。但 OpenAI 把它包装成了「AI 设计了芯片」，因为后者是更好的头条。读懂这两件事之间的差距，比追任何一条「AI 颠覆某行业」的新闻都更有用。

九个月的真正功臣

拉远看：AI 在芯片设计里的真实位置

为什么是这个分布

这对 AI builder 意味着什么

鸭哥每日手记