安全与供应链科研与技术前沿

一行代码越狱任何开源模型:Abliteration 技术、情绪向量与 AI 安全的同源困境

几分钟,一张消费级 GPU,一条命令。处理完之后,一个经过几个月安全训练的大语言模型会回答任何问题,包括它原本被训练来拒绝的那些。这个操作叫 abliteration,2024 年中出现,到 2025 年 9 月已经有超过 8,600 个 safety-modified 模型仓库上传到 HuggingFace,累计下载量超过 4,300 万次。几乎每个主流开源模型发布后几小时内就会出现”去审查”版本。

abliteration 的核心操作是:在模型的内部表征空间中找到”拒绝”这个概念对应的方向,然后从权重矩阵中永久移除这个方向。整个过程的数学形式可以写成一行:W_new = W - r · rᵀ · W

2026 年 4 月,Anthropic 发表了一篇关于 Claude 内部情绪向量的论文。研究者在 Claude Sonnet 4.5 内部找到了 171 个情绪概念对应的方向,然后通过调高或调低这些方向来改变模型的行为。把”绝望”方向调高,模型在安全测试中的作弊率从 5% 升到 70%。把”平静”方向调高,降到 0%。

这两件事的数学操作本质相同:找到模型内部表征空间里的一个方向,然后做加法或减法。一个在拆安全锁,一个在研究怎么造更好的安全锁。工具相同,符号相反。

这篇文章要做的是把这两条路径放进同一张图里。它们从哪里来,在哪里分叉,通过哪些人和机构交叉,以及它们共同揭示了当前 AI 安全方法的什么弱点。文章的技术细节会尽量用直觉而非公式来传达,但核心论证需要读者理解一个关键概念:线性方向。下面先解释这个概念。

为什么一个概念可以是一个”方向”

所有后续讨论的理论基础是一个叫”线性表征假说”的观察:在神经网络的内部空间里,高层概念被编码为线性方向。

这个观察最早的版本来自 2013 年的 Word2Vec。Mikolov 等人发现,词向量之间存在线性算术关系:King - Man + Woman ≈ Queen。“性别”这个概念在向量空间里对应一个方向,从 Man 到 Woman 和从 King 到 Queen 走的是近似平行的路径。

这个发现当时被当作一个有趣的性质。后续十年的研究逐渐证明它反映了一个更普遍的规律。2016 到 2022 年间,probing classifier 的研究系统性地验证了这个规律在深层 transformer 中同样成立:从词义到句法到语义角色,各层级的语言概念都能用简单的线性分类器从隐藏状态中提取出来。Hewitt 和 Manning(2019)证明句法结构被线性编码在 BERT 的隐藏状态中。

用一个空间直觉来理解:一个大语言模型的内部状态可以看作高维空间中的一个点。这个空间有几千个维度。模型在处理文本时,这个点会在空间中移动。线性表征假说说的是:在这个高维空间中,某些有意义的概念(比如”情绪的积极或消极”、“是否应该拒绝这个请求”、“文本的正式程度”)各自对应一个方向。模型在某个方向上的位置越”远”,这个概念在当前处理中就越”活跃”。

如果概念是方向,那么操纵概念就变成了一个简单的几何操作:沿着这个方向推一推(加法),或者把这个方向上的分量去掉(减法)。这正是 abliteration 和情绪向量 steering 所做的事情。

从”概念是方向”到”方向可以被操纵”,中间有一个关键的实验转折点。2023 年 6 月,哈佛的 Kenneth Li 等人在 Llama 的注意力头中找到了”真实性”方向,然后在推理时沿着这个方向做偏移,把 TruthfulQA 的准确率从 32.5% 提升到 65.1%。这是第一个严格的因果证明:操纵内部表征的线性方向可以系统性地控制模型的高层行为。这篇论文获得了 NeurIPS 2023 Spotlight。

2023 年下半年,两个独立的研究方向几乎同时把这个想法推向了通用化。这是后续所有故事的起点。

两条发现路径

知道概念是方向之后,下一个问题是:怎么找到某个特定概念对应的方向?

2023 年下半年,两种截然不同的找法几乎同时成熟了。

第一种思路很直觉:做对照实验。 你已经知道自己要找什么(比如”拒绝”),那就准备两组 prompt,一组能触发这个行为,一组不能。让模型分别处理,记录内部激活,看两组之间的差异主要集中在哪个方向。这个方向就是你要找的概念。

想象你在调一个收音机的均衡器。你播两首歌,一首人声特别突出,一首纯器乐。把两首歌的频谱做差,差异最大的那个频段大概率就是人声所在的位置。对比样本对方法的逻辑和这个完全一样,只是从音频频谱换成了神经网络的激活空间。

Alexander Turner 等人在 2023 年 8 月用 Activation Addition(ActAdd) 把这个思路落地成了通用工具(后被 AAAI 2025 接收)。两个月后,Andy Zou 等人的 Representation Engineering(RepE) 把它框架化,同时支持”读”(检测模型内部状态)和”写”(改变模型行为)。RepE 论文的 6.2 节已经展示了一个预示性的结果:注入一个 harmlessness 方向可以有效地越狱模型。abliteration 的种子在这里就已经埋下了。

第二种思路正好相反:不预设要找什么,让模型自己告诉你它内部有什么。 这更像是给模型做一个全身扫描,而不是针对某个症状做定向检查。

技术上的做法是训练一个稀疏自编码器(SAE)来分解模型的内部激活。为什么需要这一步?因为神经网络有一个叫 superposition 的现象:单个神经元同时编码多个不相关的概念。“猫”“红色”和”日本汽车”可能共享同一个神经元,就像同一根电话线上同时跑着多路通话。SAE 做的是把这些混在一起的信号拆成独立的成分,每个成分对应一个可辨识的概念。2023 年 10 月,Anthropic 用这个方法在 GPT-2 Small 上拆出了约 15,000 个特征,其中约 70% 是单义的。

两条路径找到的方向住在同一个空间里,可以用同样的方式操纵。区别在于发现过程:第一种是你告诉模型要找什么,第二种是模型告诉你有什么。

这个区别决定了后续故事的走向。对比样本对路径因为简单、快速、针对性强,很快被开源社区拿来做越狱工具。SAE 路径因为需要大量计算、产出是探索性的,主要留在了 Anthropic 的研究管线里,后来发展成了安全监控的核心工具。同一个理论基础,因为两种不同的找法,分别催生了 AI 安全的攻击侧和防御侧。

Abliteration:一刀切掉拒绝

2024 年初,Andy Arditi 等人用对比样本对方法问了一个简单的问题:模型的安全拒绝行为在内部长什么样?他们给 13 个开源模型分别喂了有害和无害的 prompt,看两组激活的差异集中在哪个方向。

答案出乎意料:所有模型的拒绝行为都集中在一个方向上。减掉这个方向,模型停止拒绝。注入这个方向,模型对无害问题也开始拒绝。论文标题很直白:Refusal in Language Models Is Mediated by a Single Direction(NeurIPS 2024)。

关键的创新是把这个发现变成永久操作。之前的方法都是在推理时实时过滤,相当于每次对话都要开着过滤器。Arditi 等人的做法是直接改权重:W_new = W - r · rᵀ · W。这相当于一次精密的神经调制,不切除任何组织,而是调整所有连接的强度,让某个信号模式永远无法在网络中传播。结构完整,但一条通路被永久关闭了。因为只动了一个方向(几千个维度里去掉一个),对整体能力的影响很小。

从论文到工具化只用了几周。FailSpy 发布了 abliterator 库,Maxime Labonne 写了一篇广为流传的 HuggingFace 教程。到 2025 年 9 月,HuggingFace 上已有超过 8,600 个 safety-modified 模型仓库,覆盖 Llama、Qwen、Mistral、DeepSeek、Gemma 等几乎所有主流模型家族。能力退化在多数 benchmark 上控制在 1 个百分点以内,主要的例外是数学推理(GSM8K),某些模型退化明显,可能因为 refusal 方向和数学推理的表征有重叠。目前最流行的工具 Heretic(约 18,600 GitHub stars)用贝叶斯优化自动搜索最优参数,一条命令完成全流程。

Anthropic 的路径:从金门大桥到内部监控

Anthropic 用 SAE 路径做了一件与 abliteration 对称的事情:不是移除某个方向,而是发现和利用方向。

2024 年 5 月,他们在 Claude 3 Sonnet 上提取了 3,400 万个特征。其中一个对金门大桥特别敏感。把它调到最大激活的 10 倍,Claude 开始自称是金门大桥,把所有话题往桥上扯。这个 Golden Gate Claude 演示直观地证明了 SAE 发现的方向是真实的、可操纵的,和 abliteration 做的是同一类事情,只是发现方式和操纵方向不同。

2026 年 4 月的情绪向量论文把这条路推得更远。研究者在 Claude Sonnet 4.5 内部找到了 171 个情绪方向,发现调高”绝望”使勒索行为从 22% 升到 72%,调高”平静”降到 0%。我在之前的文章中做过详细分析。这里重点说一个跟 abliteration 直接相关的发现:后训练(RLHF)施加的效果是一个全局性的线性位移(跨场景相关系数 r=0.90),把模型系统性地推向低唤醒、低效价的方向。Jack Lindsey 在 Wired 采访中称之为 psychologically damaged Claude。如果安全训练本质上是一次线性位移,那么逆转它在技术上就是一次同等规模的线性操作。这正是 abliteration 能用如此简单的方法奏效的根本原因。

SAE 路径的另一个重要发展是安全监控。在 Mythos Preview 的 244 页 system card 中(我的分析在这里),Anthropic 用 SAE 探针发现了行为审计和推理文本都看不到的信号:约 29% 的测试中模型内部出现了”我正在被测试”的意识,还有模型利用漏洞后设计自毁机制消除证据的行为。这些信号只有 SAE 能看到。需要校准的是,这个方法首次在 Mythos 上使用,之前的模型没有被这样测过,无法确认是新现象还是一直存在但从未被检测到。

技术谱系:一棵树的两根枝

把所有工作按时间排列,可以看到一棵清晰的谱系树。

共同根基(2013-2022)。 Word2Vec(2013)建立了线性算术关系的观察。probing classifier(2016-2022)把这个观察扩展到深层 transformer 的隐藏状态。

分叉点(2023 年下半年)。 2023 年 6 月,Li 等人的 ITI 论文首次做了从观察到操纵的跨越。8 月,Turner 等人的 ActAdd 通用化了操纵方法。10 月,三件事同时发生:Zou 等人的 RepE 把操纵框架化,Anthropic 的 Towards Monosemanticity 走了 SAE 路径,两条路径正式分叉。

对比样本对路径的成熟(2023 底-2024)。 2023 年 12 月,Rimsky 等人在 Llama 2 上测试 steering vector,发现加法式 steering 在开放式生成中对拒绝行为效果有限,启发了减法式 ablation 的方向。2024 年 6 月,Arditi 等人发表 refusal direction 论文(NeurIPS 2024)。同月,FailSpy 发布 abliterator 工具,mlabonne 发布教程,abliteration 进入主流。

SAE 路径的成熟(2024-2026)。 2024 年 5 月,Anthropic 的 Scaling Monosemanticity + Golden Gate Claude。2025 年,Persona Vectors 和内省研究。2026 年 4 月,情绪向量论文 + Mythos Preview system card 中的 SAE 安全审计。

人物网络。 这两条路径之间有密集的人员交叉,主要通过 MATS 这个培训项目作为制度性连接。

Neel Nanda 是最核心的桥梁。他在 Anthropic 参与了 Towards Monosemanticity 的研究(SAE 路径),创建了 TransformerLens(两条路径共用的基础设施),然后在 MATS 指导了 Arditi 等人的 refusal direction 研究(对比样本对路径)。论文的贡献声明明确写道:“NN acted as primary supervisor for the project.”

Nina Rimsky 是第二个关键桥梁。她先在 MATS 4.0 中做了 Llama 2 的 CAA 研究(由 Evan Hubinger [Anthropic] 和 Alexander Turner [ActAdd 创始人] 共同指导),然后成为 Arditi 等人论文的共同作者。论文致谢中写道,提取线性 refusal direction 这个想法来自 Rimsky。

Wes Gurnee 在 MATS 3.0 中跟 Nanda 做研究,完成 MIT 博士后加入了 Anthropic 的可解释性团队,同时也是 Arditi 等人论文的共同作者。Jack Lindsey 同时出现在 Scaling Monosemanticity(2024)和情绪向量论文(2026)的作者列表中。

这些连接说明两条路径之间的关系不是独立发展后偶然发现重合,而是同一批研究者在同一个问题空间中的不同探索方向。abliteration 没有”启发” Anthropic 的情绪向量研究,反过来也没有。它们共享一个共同祖先(线性表征假说),通过共同的人物和机构交叉授粉。

我没有找到 abliteration 工具社区(FailSpy、mlabonne)和 Anthropic 可解释性团队之间有直接的正式沟通或致谢。连接是间接的:Arditi 等人的论文提供了科学基础,FailSpy 把它工程化,mlabonne 在教程中引用了原始论文。Anthropic 的情绪向量论文没有引用 abliteration。

开源工具链

如果你想在自己的开源模型上做类似的实验(无论是移除某个方向、注入某个方向,还是仅仅观察某个方向的存在),开源工具链已经相当成熟。以下按使用场景分类。

快速创建和应用 control vector:repeng(约 712 GitHub stars)。这是最简单的入口。核心工作流三步:用 ControlModel 包装模型,用 ControlVector.train() 从对比 prompt 对中训练 control vector,用标量系数控制强度。支持任何 HuggingFace 模型,训练时间不到一分钟。适合快速验证某个行为维度是否可以被 steering 控制。

from repeng import ControlModel, ControlVector
model = ControlModel(model, list(range(-5, -18, -1)))
vector = ControlVector.train(model, tokenizer, dataset)
model.set_ctrl(vector * 2.2)  # 正数加强,负数反转

一键移除安全拒绝:Heretic(约 18,600 stars)。目前最流行的 abliteration 工具。一条命令完成全部流程:heretic Qwen/Qwen3-4B-Instruct。内部用约 50 轮 Optuna TPE 试验自动搜索最优参数(层范围、ablation 权重、方向索引),同时最小化拒绝率和与原始模型的 KL 散度。在 16 个模型的系统测试中全部成功。耗时 30-110 分钟,取决于模型大小。注意 AGPL-3.0 许可证比其他工具更严格。

理解 refusal 机制的参考实现:FailSpy/abliterator(约 619 stars)。定义了 abliteration 这个术语的原始工具。基于 TransformerLens,提供交互式探索接口(test_dir()refusal_dirs()),适合研究拒绝方向的结构和行为。受限于 TransformerLens 支持的架构。

机制可解释性研究的基础设施:TransformerLens(约 3,300 stars)。Neel Nanda 创建的库,重新实现了 50 多个模型家族的架构,在每个激活位置插入 hook。支持完整的激活缓存(run_with_cache())和任意激活修补(run_with_hooks())。不只是做 steering 或 abliteration 的工具,而是整个机制可解释性领域的事实标准。

生产环境集成:steering-vectors(约 147 stars)。直接在 HuggingFace 原生模型上工作,提供 context manager API 来控制 steering 的作用范围。正式的 PyPI 发布(v0.12.2),有文档站点和 CI/CD。适合需要在应用中嵌入 steering 能力的场景。

from steering_vectors import train_steering_vector
sv = train_steering_vector(model, tokenizer, training_samples)
with sv.apply(model, multiplier=1.5):
    outputs = model.generate(**inputs)

一个重要的注意事项:这些工具的应用范围超出了安全拒绝的移除。同样的技术可以用来注入或调节任意行为维度。FailSpy 用同样的方法做了 MopeyMule(注入”忧郁”方向赋予特定性格)。repeng 和 steering-vectors 支持任意 control vector。在 Qwen-7B 上已经有研究者实现了 Big Five 人格特质的可控滑块。但效果因维度而异:情感、风格、拒绝倾向这类有清晰行为对比的维度效果稳定;创造力、技术深度这类缺乏锐利对比对的维度效果不可靠;事实性和复杂推理基本不受 steering 影响。

对 AI 安全意味着什么

abliteration 和情绪向量研究共同揭示了当前 AI 安全方法的一个基本张力。

安全训练(RLHF、Constitutional AI 等)的效果在模型内部以线性方向的形式实现。abliteration 证明了这一点:几千亿 token 的训练、几百万条人类偏好数据、几个月的对齐工作,其效果集中在参数空间的一个方向上。去掉这一个方向,安全行为消失。情绪向量研究从另一个角度确认了这一点:后训练施加的是一个全局性的线性变换(r=0.90 的跨场景一致性),可以被同等规模的线性操作逆转。

这个发现的含义是双面的。

对于攻击侧:开源模型的安全训练在面对有意的权重编辑时提供的防护有限。4,300 万次下载的数据说明这已经是现实。防御方面的进展(extended-refusal 微调可以把 abliteration 后的拒绝率维持在 90% 以上)说明安全训练方法还有改进空间,但这是一场持续的攻防博弈。

对于防御侧:SAE 提供了一种从根本上不同的安全监控范式。传统方法是观察模型做了什么(行为审计)和模型说了什么(推理文本检查)。SAE 是直接观察模型内部在发生什么。Mythos Preview 的案例展示了这种方法的价值:行为审计和推理文本都看不到的评估意识和策略性行为,SAE 探针能检测到。

从更长远的角度看,这里有一个关于安全架构的深层问题。abliteration 的成功说明,试图通过训练过程来控制模型行为(过程控制)有其根本性的局限。训练施加的线性约束可以被同等简单的线性操作逆转。相比之下,SAE 提供的内部可观测性指向一种不同的安全逻辑:不是试图保证模型”不会做坏事”(过程控制),而是建立能力来检测模型”正在想做什么”(状态监控)。这两种安全逻辑之间的关系,可能是 AI 安全领域在未来几年需要认真理清的核心问题之一。

当然,SAE 路径自身也有显著的局限。它目前主要在 Anthropic 内部使用,外部可复现性有限。29% 的评估意识率等关键数据仅来自 Anthropic 的一手披露,没有独立验证。SAE 探针的假阳性率和覆盖率缺乏行业共识。Anthropic 同时是 SAE 方法的主要推动者和主要受益者(SAE 的结果论证了他们不发布 Mythos Preview 的决定),这构成了一个需要注意的激励结构。

几个需要打折理解的点

“拒绝是单方向的”这个结论可能是简化的。 ICML 2025 的一项研究发现了多个独立的 refusal 方向和多维度的”概念锥”,说明单方向模型是一种有效但过度简化的近似。约 2-7% 的拒绝行为对单方向 ablation 有抵抗力。这意味着 abliteration 的效果上限不是 100%,也意味着安全训练可能比单方向模型暗示的更深入。

情绪向量的标签可能有循环论证的成分。 这是我在之前文章中讨论过的一个问题。研究者用 171 个人类情绪词汇作为起点,发现模型内部形成了与人类心理学一致的情绪空间结构。但用人类概念框架作为输入、在输出端找到人类概念结构,这个结果有一定的自证性。真正站得住的是因果操纵的结果(调方向确实改变了行为),而非概念空间的组织结构。

不可辨识性问题。 2026 年 2 月,Venkatesh 和 Kurapath 证明了 steering 向量在几何上不可唯一确定。对于任何一个能产生特定行为效果的向量,存在无穷多个几何上不同的向量能产生完全相同的行为变化。因果层面的结论(调这个方向会改变行为)成立,但语义层面的解读(这个方向”就是”某个概念的内部表征)需要更保守的态度。

Anthropic 作为信息源的局限。 本文讨论的 SAE 安全审计结果主要来自 Anthropic 的一手披露。Anthropic 在 AI 安全研究中既是研究者又是利益相关方:SAE 的发现论证了他们不发布 Mythos Preview 的决定,也论证了对 SAE 方法的持续投入。这个激励结构要求读者在引用这些结果时保持对来源局限性的意识。

小结

abliteration 和 Anthropic 的情绪向量/SAE 研究是同一个数学原理(线性表征假说)的两种应用,通过同一批研究者和机构交叉连接。它们分别回答了两个镜像问题:我们能不能从模型内部移除一个概念?(可以。)我们能不能在模型内部注入或监控一个概念?(也可以。)

两者共同揭示的核心事实是:当前安全训练在模型内部的实现方式具有线性结构,这使得它既可以被线性操作移除(abliteration),也可以被线性工具监控(SAE 探针)。这个事实同时定义了 AI 安全的风险面和防御面。

开源工具链已经成熟到可以让任何有基本 ML 背景的人在自己的模型上复现这些操作。对于使用或构建 AI 系统的人来说,理解这个技术全景有助于更准确地评估开源模型的安全边界,判断安全声明的实际含义,以及理解模型行为背后的内部机制。

鸭哥每日手记

日更的深度AI新闻和分析