在许多人的想象中,AI 对科学研究的重构应该发生在那些令人激动的灵感瞬间。我们期望一个博览群书的虚拟科学家,能够通读几万篇文献,在深夜里和人类进行智慧的碰撞,突然提出一个人类未曾设想过的新靶点或者新材料合成路径。
然而,2026 年 6 月 30 日 Anthropic 发布的桌面应用 Claude Science,却把目光投向了另一个极其接地气甚至显得枯燥的领域。它并不急于充当那个指点江山的超级大脑,而是默默在底层当起了算力调度员与数据清洗工。
这种落差揭示了当下科学研发中一个少有人提及的现实:科学家的核心才华在于学科直觉、假说推演和实验设计。但在日常研发中,他们大部分时间都消耗在极其琐碎的数字体力活中。大众期望的智能碰撞,与科研一线面临的真实瓶颈之间,存在着巨大的失配。
无论是生命科学、药物制药,还是化学与材料学,理科研发的核心资产是科学家的专业直觉(Expertise),例如判断哪个靶点有临床价值、哪种反应路径更具经济性、或者某种晶体结构是否具有超导潜力。
然而,一旦进入执行阶段,研发效率就会撞上几堵无形的高墙:
第一是数据获取的摩擦。在生命科学中,高维异构的定量数据散落在 UniProt 蛋白序列库、PDB 蛋白质三维空间坐标库、Ensembl 基因组数据库、以及 GEO 单细胞测序表达谱中。每个数据库都有自己独特的 API、数据格式和专有名词规范。科学家需要耗费极大的精力去编写临时的 Python 胶水代码,只为了将这些数据拼凑、清洗并对齐到同一个表格里。
第二是算力环境的配置折磨。在材料化学中,运行第一性原理(DFT)计算或分子动力学模拟需要大规模超算资源。科学家必须在 Linux 终端通过 SSH 登录学校或机构的超算集群(HPC),使用 SLURM 调度器提交任务。配置 SBATCH 脚本、配置特定版本的科学计算库(如 NVIDIA 的 BioNeMo 平台)、解决 fragile 的软件版本依赖冲突,往往占用了科研人员大量的脑力。
第三是协作等待的漫长周期。在典型的实验室里,懂实验的湿实验科学家通常不会写复杂的生信分析代码,他们必须把数据交给干实验生信分析员。这导致了严重的服务排队瓶颈。科学家为了画一张简单的基因表达趋势图,可能需要排队等候两周。如果发现分析参数设错,又需要再等两周。
这种在电脑前倒腾数据、配置环境、排队超算的事务,占用了研发人员近 80% 的工作时间。这不仅不是科学创新,反而是一种研发效能的损耗。
为了解决这一系列瓶颈,当下科技界其实演化出了三条完全不同的突围路径。
这三条路径在不同的层面上尝试解放科学家的精力,它们分别依赖于不同的技术底层:
这一路径的思路是直接改造物理世界的实验室,用机器人学和自动化控制替代人工操作。它的目标是让物理实验变得像软件代码一样可以重现、分享并进行规模化扩张。
在这个赛道上,涌现出了几家代表性的企业。例如总部位于奥斯汀的 Emerald Cloud Lab (ECL),它建立了一个高度自动化的云端湿实验室,里面有数百台高档生物科学仪器在无人的情况下 24 小时运转。科学家只需要在软件中编写协议,机器人就会自动加载试剂和样品进行试验。类似的还有 Eli Lilly 合作的 Strateos,以及专注于合成生物学基础设施服务的 Ginkgo Bioworks。这类模式的优点是解决实验复现性危机,但它依赖于重资产的机器人硬件,资金门槛极高。
这一路径专注于解决电脑屏幕前的体力活。它不改变物理世界的试管和移液枪,而是通过智能体(Agent)去协调各种科学数据库、配置底层计算软件、自动编写胶水代码并调度 HPC 算力。它的目标是彻底消除计算管线中的执行摩擦。
这正是 Claude Science 所选择的道路。它让科学家直接通过自然语言和图形标注,在几分钟内跑完原本需要排队数周的超算计算流程。它不需要任何机械臂,只在数字空间里充当高效率的算力调度员。
这一路径是最符合科幻想象的终极形态,即用 AI 去寻找科学创新。它的目标是让大模型阅读海量文献、自动提取概念节点、碰撞并生成全新的假说,甚至进行严谨的逻辑推理。
这类似于菲尔兹奖得主陶哲轩正在推广的用 Lean 语言进行数学公式的形式化证明。AI 在这里不再是一个工具人,而是一个能够提出新理论、证明新公式的数字合作者。这一路径处于大模型推理的最前沿,但受限于大模型的逻辑严谨性与幻觉,目前仍然难以完全独立商业化落地。
在物理实验室自动化(路径一)和科学假说创新(路径三)之间,Anthropic 务实地切入了中间的数字计算流自动化(路径二)。这背后有着清晰的商业与技术考量:
首先,路径三在现阶段面临无法调和的幻觉瓶颈。如果让大模型去寻找新的分子式或设计新药靶点,一旦大模型发生逻辑幻觉,会直接导致后端的物理实验彻底失败,成本极其高昂。相比之下,路径二将大模型限定在编写环境代码、拉取数据库、生成 SLURM 脚本这类确定性的执行任务中。代码跑没跑通、数据对没对齐,都有编译器和 Reviewer Agent(审查智能体)进行严苛的客观校验。这极大地绕开了大模型的幻觉缺陷,实现了立竿见影的 ROI 产出。
其次,路径一受限于物理硬件的缓慢迭代与重资产压力。Anthropic 拥有强大的软件智能体积累(这在 Claude Code 的开发中得到了充分验证),将这种智能体调度能力平移到科学计算领域,能够以极低的边际成本迅速部署到全球的科研机构中,而不需要在各地建造昂贵的自动化实验室。
通过选择路径二,Claude Science 实际上成为了科学家与底层算力/数据之间的一层高效率语义网关。
在实际运行中,Claude Science 并不是一个简单的文件拷贝工具,而是在数据库整合与超算调度上实现了深入的闭环管理:
在面对 UniProt(蛋白数据库)、PDB(三维结构数据库)、Ensembl(基因组数据库)和 ChEMBL(活性分子库)时,Claude Science 会自动编写专用的数据清洗代码。科学家只需要在界面中要求寻找与特定突变关联的所有三维蛋白结构并标注活性位点,协调智能体(Coordinating Agent)就会在后台自动完成多源数据的拉取、转换与对齐,免去了手动编写 API 调用的繁琐步骤。
在面对复杂的超算任务时,Claude Science 承担了初级计算工程师的角色:
虽然两者都属于 Anthropic 的 Agent 产品矩阵,但它们的交互逻辑和底层控制面有着本质的差别:
| 维度 | Claude Code | Claude Science |
|---|---|---|
| 交互媒介与提示词 | 默认支持终端命令行交互,且提供集成了可视化的 Claude Code Desktop
桌面客户端。支持在桌面端预览运行服务与代码修改,并通过
/desktop 指令将终端对话无缝迁移至 GUI
界面。工作区规则保存在 .claude/CLAUDE.md 中。 |
拥有独立的浏览器 GUI 运行空间。不仅支持对话与任务计划管理,还深度优化了富媒体 Artifact(如 3D 蛋白质模型、分子结构、基因轨道)的交互,科学家可直接在图表与轨道上进行在线标注与框选。 |
| 技能定制与扩展 | 共享标准的 Agent Skills 格式。技能多围绕软件工程(如 Git 提交、测试套件运行、代码检索)。 | 共享标准的 Agent Skills 格式。出厂预配置了 60+ 数据库技能和 NVIDIA BioNeMo Agent Toolkit。支持将复杂的科学分析管线(如 Python/R 数据分析脚本、Snakemake 流程)保存为可复用的技能,并在未来会话中自动继承。 |
| 执行环境与安全沙箱 | 在本地宿主机直接运行 Shell 命令。允许开启 auto mode 以跳过确认,存在潜在的安全盲区。 | 代码执行锁定在操作系统级安全沙箱(Sandbox)内,网络请求通过代理白名单过滤。支持将大规模计算任务调度到远程 HPC 超算集群(通过 SLURM 提交任务)或 Modal GPU 计算平台,使敏感数据不离开受信任的计算节点。 |
| 审计与追溯性 | 侧重于代码文件修改的 Git 状态管理,以软件工程为中心。 | 重塑了科学资产的可追溯证据链。生成的图表与手稿自动打包生成代码、软件环境与依赖版本。引入 Reviewer Agent 对文献引用(DOI)和定量数据进行实时交叉审计,以应对学术复现危机。 |
当计算环境的配置、数据库的检索、胶水代码的编写以及超算任务的调度都可以自动运行后,科学家的时间分配结构将发生根本性的翻转。
在传统的研发模式中,科学家有 80% 的精力都在扮演数据管道缝合工的角色,疲于奔命于各种工具与环境的适配,只有 20% 的时间能用于思考真正的科学假设与分析结论。
在 Claude Science 提供的运行空间里,这种时间结构彻底颠倒。科学家只需要花费 10% 的精力进行智能体编排与意图对齐,剩下的 90% 时间得以专注于假设建立、数据合理解释、逻辑漏洞审查以及结论安全性把关。
科学家不再需要去抠底层的计算实现,而是上升为了整个分析任务的出题人与审查官。这种角色的升维虽然提高了研发的效率,但也对科学家的判断力提出了更高的要求:在智能体不知疲倦地生成海量分析结论时,科学家必须知道哪些结果是符合科学直觉的,哪些可能隐藏着精妙的计算漏洞。
Claude Science 的推出并不是要让 AI 彻底取代科学家的大脑,而是要让科学家的大脑从繁琐的数据搬运和环境折腾中解脱出来。通过在数字计算流(路径二)上建立起的高效智能体网络,它打破了湿实验与干实验之间的技术隔离,实现了工具的平权。
对于研发机构来说,这股数字自动化的浪潮已经到来。如何在确保数据合规的前提下,将这样高效率的算力调度网关引入实验室,将成为未来决定研发效能高低的核心分水岭。