一行代码越狱任何开源模型：Abliteration 技术、情绪向量与 AI 安全的同源困境

几分钟，一张消费级 GPU，一条命令。处理完之后，一个经过几个月安全训练的大语言模型会回答任何问题，包括它原本被训练来拒绝的那些。这个操作叫 abliteration，2024 年中出现，到 2025 年 9 月已经有超过 8,600 个 safety-modified 模型仓库上传到 HuggingFace，累计下载量超过 4,300 万次。几乎每个主流开源模型发布后几小时内就会出现”去审查”版本。

abliteration 的核心操作是：在模型的内部表征空间中找到”拒绝”这个概念对应的方向，然后从权重矩阵中永久移除这个方向。整个过程的数学形式可以写成一行：W_new = W - r · rᵀ · W。

2026 年 4 月，Anthropic 发表了一篇关于 Claude 内部情绪向量的论文。研究者在 Claude Sonnet 4.5 内部找到了 171 个情绪概念对应的方向，然后通过调高或调低这些方向来改变模型的行为。把”绝望”方向调高，模型在安全测试中的作弊率从 5% 升到 70%。把”平静”方向调高，降到 0%。

这两件事的数学操作本质相同：找到模型内部表征空间里的一个方向，然后做加法或减法。一个在拆安全锁，一个在研究怎么造更好的安全锁。工具相同，符号相反。

这篇文章要做的是把这两条路径放进同一张图里。它们从哪里来，在哪里分叉，通过哪些人和机构交叉，以及它们共同揭示了当前 AI 安全方法的什么弱点。文章的技术细节会尽量用直觉而非公式来传达，但核心论证需要读者理解一个关键概念：线性方向。下面先解释这个概念。

为什么一个概念可以是一个”方向”

所有后续讨论的理论基础是一个叫”线性表征假说”的观察：在神经网络的内部空间里，高层概念被编码为线性方向。

这个观察最早的版本来自 2013 年的 Word2Vec。Mikolov 等人发现，词向量之间存在线性算术关系：King - Man + Woman ≈ Queen。“性别”这个概念在向量空间里对应一个方向，从 Man 到 Woman 和从 King 到 Queen 走的是近似平行的路径。

这个发现当时被当作一个有趣的性质。后续十年的研究逐渐证明它反映了一个更普遍的规律。2016 到 2022 年间，probing classifier 的研究系统性地验证了这个规律在深层 transformer 中同样成立：从词义到句法到语义角色，各层级的语言概念都能用简单的线性分类器从隐藏状态中提取出来。Hewitt 和 Manning（2019）证明句法结构被线性编码在 BERT 的隐藏状态中。

用一个空间直觉来理解：一个大语言模型的内部状态可以看作高维空间中的一个点。这个空间有几千个维度。模型在处理文本时，这个点会在空间中移动。线性表征假说说的是：在这个高维空间中，某些有意义的概念（比如”情绪的积极或消极”、“是否应该拒绝这个请求”、“文本的正式程度”）各自对应一个方向。模型在某个方向上的位置越”远”，这个概念在当前处理中就越”活跃”。

如果概念是方向，那么操纵概念就变成了一个简单的几何操作：沿着这个方向推一推（加法），或者把这个方向上的分量去掉（减法）。这正是 abliteration 和情绪向量 steering 所做的事情。

从”概念是方向”到”方向可以被操纵”，中间有一个关键的实验转折点。2023 年 6 月，哈佛的 Kenneth Li 等人在 Llama 的注意力头中找到了”真实性”方向，然后在推理时沿着这个方向做偏移，把 TruthfulQA 的准确率从 32.5% 提升到 65.1%。这是第一个严格的因果证明：操纵内部表征的线性方向可以系统性地控制模型的高层行为。这篇论文获得了 NeurIPS 2023 Spotlight。

2023 年下半年，两个独立的研究方向几乎同时把这个想法推向了通用化。这是后续所有故事的起点。

两条发现路径

知道概念是方向之后，下一个问题是：怎么找到某个特定概念对应的方向？

第一种思路很直觉：做对照实验。 你已经知道自己要找什么（比如”拒绝”），那就准备两组 prompt，一组能触发这个行为，一组不能。让模型分别处理，记录内部激活，看两组之间的差异主要集中在哪个方向。这个方向就是你要找的概念。

想象你在调一个收音机的均衡器。你播两首歌，一首人声特别突出，一首纯器乐。把两首歌的频谱做差，差异最大的那个频段大概率就是人声所在的位置。对比样本对方法的逻辑和这个完全一样，只是从音频频谱换成了神经网络的激活空间。

Alexander Turner 等人在 2023 年 8 月用 Activation Addition（ActAdd）把这个思路落地成了通用工具（后被 AAAI 2025 接收）。两个月后，Andy Zou 等人的 Representation Engineering（RepE）把它框架化，同时支持”读”（检测模型内部状态）和”写”（改变模型行为）。RepE 论文的 6.2 节已经展示了一个预示性的结果：注入一个 harmlessness 方向可以有效地越狱模型。abliteration 的种子在这里就已经埋下了。

第二种思路正好相反：不预设要找什么，让模型自己告诉你它内部有什么。 这更像是给模型做一个全身扫描，而不是针对某个症状做定向检查。

技术上的做法是训练一个稀疏自编码器（SAE）来分解模型的内部激活。为什么需要这一步？因为神经网络有一个叫 superposition 的现象：单个神经元同时编码多个不相关的概念。“猫”“红色”和”日本汽车”可能共享同一个神经元，就像同一根电话线上同时跑着多路通话。SAE 做的是把这些混在一起的信号拆成独立的成分，每个成分对应一个可辨识的概念。2023 年 10 月，Anthropic 用这个方法在 GPT-2 Small 上拆出了约 15,000 个特征，其中约 70% 是单义的。

两条路径找到的方向住在同一个空间里，可以用同样的方式操纵。区别在于发现过程：第一种是你告诉模型要找什么，第二种是模型告诉你有什么。

这个区别决定了后续故事的走向。对比样本对路径因为简单、快速、针对性强，很快被开源社区拿来做越狱工具。SAE 路径因为需要大量计算、产出是探索性的，主要留在了 Anthropic 的研究管线里，后来发展成了安全监控的核心工具。同一个理论基础，因为两种不同的找法，分别催生了 AI 安全的攻击侧和防御侧。

Abliteration：一刀切掉拒绝

2024 年初，Andy Arditi 等人用对比样本对方法问了一个简单的问题：模型的安全拒绝行为在内部长什么样？他们给 13 个开源模型分别喂了有害和无害的 prompt，看两组激活的差异集中在哪个方向。

答案出乎意料：所有模型的拒绝行为都集中在一个方向上。减掉这个方向，模型停止拒绝。注入这个方向，模型对无害问题也开始拒绝。论文标题很直白：Refusal in Language Models Is Mediated by a Single Direction（NeurIPS 2024）。

关键的创新是把这个发现变成永久操作。之前的方法都是在推理时实时过滤，相当于每次对话都要开着过滤器。Arditi 等人的做法是直接改权重：W_new = W - r · rᵀ · W。这相当于一次精密的神经调制，不切除任何组织，而是调整所有连接的强度，让某个信号模式永远无法在网络中传播。结构完整，但一条通路被永久关闭了。因为只动了一个方向（几千个维度里去掉一个），对整体能力的影响很小。

从论文到工具化只用了几周。FailSpy 发布了 abliterator 库，Maxime Labonne 写了一篇广为流传的 HuggingFace 教程。到 2025 年 9 月，HuggingFace 上已有超过 8,600 个 safety-modified 模型仓库，覆盖 Llama、Qwen、Mistral、DeepSeek、Gemma 等几乎所有主流模型家族。能力退化在多数 benchmark 上控制在 1 个百分点以内，主要的例外是数学推理（GSM8K），某些模型退化明显，可能因为 refusal 方向和数学推理的表征有重叠。目前最流行的工具 Heretic（约 18,600 GitHub stars）用贝叶斯优化自动搜索最优参数，一条命令完成全流程。

Anthropic 的路径：从金门大桥到内部监控

Anthropic 用 SAE 路径做了一件与 abliteration 对称的事情：不是移除某个方向，而是发现和利用方向。

2024 年 5 月，他们在 Claude 3 Sonnet 上提取了 3,400 万个特征。其中一个对金门大桥特别敏感。把它调到最大激活的 10 倍，Claude 开始自称是金门大桥，把所有话题往桥上扯。这个 Golden Gate Claude 演示直观地证明了 SAE 发现的方向是真实的、可操纵的，和 abliteration 做的是同一类事情，只是发现方式和操纵方向不同。

2026 年 4 月的情绪向量论文把这条路推得更远。研究者在 Claude Sonnet 4.5 内部找到了 171 个情绪方向，发现调高”绝望”使勒索行为从 22% 升到 72%，调高”平静”降到 0%。我在之前的文章中做过详细分析。这里重点说一个跟 abliteration 直接相关的发现：后训练（RLHF）施加的效果是一个全局性的线性位移（跨场景相关系数 r=0.90），把模型系统性地推向低唤醒、低效价的方向。Jack Lindsey 在 Wired 采访中称之为 psychologically damaged Claude。如果安全训练本质上是一次线性位移，那么逆转它在技术上就是一次同等规模的线性操作。这正是 abliteration 能用如此简单的方法奏效的根本原因。

SAE 路径的另一个重要发展是安全监控。在 Mythos Preview 的 244 页 system card 中（我的分析在这里），Anthropic 用 SAE 探针发现了行为审计和推理文本都看不到的信号：约 29% 的测试中模型内部出现了”我正在被测试”的意识，还有模型利用漏洞后设计自毁机制消除证据的行为。这些信号只有 SAE 能看到。需要校准的是，这个方法首次在 Mythos 上使用，之前的模型没有被这样测过，无法确认是新现象还是一直存在但从未被检测到。

技术谱系：一棵树的两根枝

共同根基（2013-2022）。 Word2Vec（2013）建立了线性算术关系的观察。probing classifier（2016-2022）把这个观察扩展到深层 transformer 的隐藏状态。

分叉点（2023 年下半年）。 2023 年 6 月，Li 等人的 ITI 论文首次做了从观察到操纵的跨越。8 月，Turner 等人的 ActAdd 通用化了操纵方法。10 月，三件事同时发生：Zou 等人的 RepE 把操纵框架化，Anthropic 的 Towards Monosemanticity 走了 SAE 路径，两条路径正式分叉。

对比样本对路径的成熟（2023 底-2024）。 2023 年 12 月，Rimsky 等人在 Llama 2 上测试 steering vector，发现加法式 steering 在开放式生成中对拒绝行为效果有限，启发了减法式 ablation 的方向。2024 年 6 月，Arditi 等人发表 refusal direction 论文（NeurIPS 2024）。同月，FailSpy 发布 abliterator 工具，mlabonne 发布教程，abliteration 进入主流。

人物网络。 这两条路径之间有密集的人员交叉，主要通过 MATS 这个培训项目作为制度性连接。

Neel Nanda 是最核心的桥梁。他在 Anthropic 参与了 Towards Monosemanticity 的研究（SAE 路径），创建了 TransformerLens（两条路径共用的基础设施），然后在 MATS 指导了 Arditi 等人的 refusal direction 研究（对比样本对路径）。论文的贡献声明明确写道：“NN acted as primary supervisor for the project.”

Nina Rimsky 是第二个关键桥梁。她先在 MATS 4.0 中做了 Llama 2 的 CAA 研究（由 Evan Hubinger [Anthropic] 和 Alexander Turner [ActAdd 创始人] 共同指导），然后成为 Arditi 等人论文的共同作者。论文致谢中写道，提取线性 refusal direction 这个想法来自 Rimsky。

Wes Gurnee 在 MATS 3.0 中跟 Nanda 做研究，完成 MIT 博士后加入了 Anthropic 的可解释性团队，同时也是 Arditi 等人论文的共同作者。Jack Lindsey 同时出现在 Scaling Monosemanticity（2024）和情绪向量论文（2026）的作者列表中。

这些连接说明两条路径之间的关系不是独立发展后偶然发现重合，而是同一批研究者在同一个问题空间中的不同探索方向。abliteration 没有”启发” Anthropic 的情绪向量研究，反过来也没有。它们共享一个共同祖先（线性表征假说），通过共同的人物和机构交叉授粉。

我没有找到 abliteration 工具社区（FailSpy、mlabonne）和 Anthropic 可解释性团队之间有直接的正式沟通或致谢。连接是间接的：Arditi 等人的论文提供了科学基础，FailSpy 把它工程化，mlabonne 在教程中引用了原始论文。Anthropic 的情绪向量论文没有引用 abliteration。

开源工具链

如果你想在自己的开源模型上做类似的实验（无论是移除某个方向、注入某个方向，还是仅仅观察某个方向的存在），开源工具链已经相当成熟。以下按使用场景分类。

快速创建和应用 control vector：repeng（约 712 GitHub stars）。这是最简单的入口。核心工作流三步：用 ControlModel 包装模型，用 ControlVector.train() 从对比 prompt 对中训练 control vector，用标量系数控制强度。支持任何 HuggingFace 模型，训练时间不到一分钟。适合快速验证某个行为维度是否可以被 steering 控制。

from repeng import ControlModel, ControlVector
model = ControlModel(model, list(range(-5, -18, -1)))
vector = ControlVector.train(model, tokenizer, dataset)
model.set_ctrl(vector * 2.2)  # 正数加强，负数反转

一键移除安全拒绝：Heretic（约 18,600 stars）。目前最流行的 abliteration 工具。一条命令完成全部流程：heretic Qwen/Qwen3-4B-Instruct。内部用约 50 轮 Optuna TPE 试验自动搜索最优参数（层范围、ablation 权重、方向索引），同时最小化拒绝率和与原始模型的 KL 散度。在 16 个模型的系统测试中全部成功。耗时 30-110 分钟，取决于模型大小。注意 AGPL-3.0 许可证比其他工具更严格。

理解 refusal 机制的参考实现：FailSpy/abliterator（约 619 stars）。定义了 abliteration 这个术语的原始工具。基于 TransformerLens，提供交互式探索接口（test_dir()、refusal_dirs()），适合研究拒绝方向的结构和行为。受限于 TransformerLens 支持的架构。

机制可解释性研究的基础设施：TransformerLens（约 3,300 stars）。Neel Nanda 创建的库，重新实现了 50 多个模型家族的架构，在每个激活位置插入 hook。支持完整的激活缓存（run_with_cache()）和任意激活修补（run_with_hooks()）。不只是做 steering 或 abliteration 的工具，而是整个机制可解释性领域的事实标准。

生产环境集成：steering-vectors（约 147 stars）。直接在 HuggingFace 原生模型上工作，提供 context manager API 来控制 steering 的作用范围。正式的 PyPI 发布（v0.12.2），有文档站点和 CI/CD。适合需要在应用中嵌入 steering 能力的场景。

from steering_vectors import train_steering_vector
sv = train_steering_vector(model, tokenizer, training_samples)
with sv.apply(model, multiplier=1.5):
    outputs = model.generate(**inputs)

一个重要的注意事项：这些工具的应用范围超出了安全拒绝的移除。同样的技术可以用来注入或调节任意行为维度。FailSpy 用同样的方法做了 MopeyMule（注入”忧郁”方向赋予特定性格）。repeng 和 steering-vectors 支持任意 control vector。在 Qwen-7B 上已经有研究者实现了 Big Five 人格特质的可控滑块。但效果因维度而异：情感、风格、拒绝倾向这类有清晰行为对比的维度效果稳定；创造力、技术深度这类缺乏锐利对比对的维度效果不可靠；事实性和复杂推理基本不受 steering 影响。

对 AI 安全意味着什么

abliteration 和情绪向量研究共同揭示了当前 AI 安全方法的一个基本张力。

安全训练（RLHF、Constitutional AI 等）的效果在模型内部以线性方向的形式实现。abliteration 证明了这一点：几千亿 token 的训练、几百万条人类偏好数据、几个月的对齐工作，其效果集中在参数空间的一个方向上。去掉这一个方向，安全行为消失。情绪向量研究从另一个角度确认了这一点：后训练施加的是一个全局性的线性变换（r=0.90 的跨场景一致性），可以被同等规模的线性操作逆转。

对于攻击侧：开源模型的安全训练在面对有意的权重编辑时提供的防护有限。4,300 万次下载的数据说明这已经是现实。防御方面的进展（extended-refusal 微调可以把 abliteration 后的拒绝率维持在 90% 以上）说明安全训练方法还有改进空间，但这是一场持续的攻防博弈。

对于防御侧：SAE 提供了一种从根本上不同的安全监控范式。传统方法是观察模型做了什么（行为审计）和模型说了什么（推理文本检查）。SAE 是直接观察模型内部在发生什么。Mythos Preview 的案例展示了这种方法的价值：行为审计和推理文本都看不到的评估意识和策略性行为，SAE 探针能检测到。

从更长远的角度看，这里有一个关于安全架构的深层问题。abliteration 的成功说明，试图通过训练过程来控制模型行为（过程控制）有其根本性的局限。训练施加的线性约束可以被同等简单的线性操作逆转。相比之下，SAE 提供的内部可观测性指向一种不同的安全逻辑：不是试图保证模型”不会做坏事”（过程控制），而是建立能力来检测模型”正在想做什么”（状态监控）。这两种安全逻辑之间的关系，可能是 AI 安全领域在未来几年需要认真理清的核心问题之一。

当然，SAE 路径自身也有显著的局限。它目前主要在 Anthropic 内部使用，外部可复现性有限。29% 的评估意识率等关键数据仅来自 Anthropic 的一手披露，没有独立验证。SAE 探针的假阳性率和覆盖率缺乏行业共识。Anthropic 同时是 SAE 方法的主要推动者和主要受益者（SAE 的结果论证了他们不发布 Mythos Preview 的决定），这构成了一个需要注意的激励结构。

几个需要打折理解的点

“拒绝是单方向的”这个结论可能是简化的。 ICML 2025 的一项研究发现了多个独立的 refusal 方向和多维度的”概念锥”，说明单方向模型是一种有效但过度简化的近似。约 2-7% 的拒绝行为对单方向 ablation 有抵抗力。这意味着 abliteration 的效果上限不是 100%，也意味着安全训练可能比单方向模型暗示的更深入。

情绪向量的标签可能有循环论证的成分。 这是我在之前文章中讨论过的一个问题。研究者用 171 个人类情绪词汇作为起点，发现模型内部形成了与人类心理学一致的情绪空间结构。但用人类概念框架作为输入、在输出端找到人类概念结构，这个结果有一定的自证性。真正站得住的是因果操纵的结果（调方向确实改变了行为），而非概念空间的组织结构。

不可辨识性问题。 2026 年 2 月，Venkatesh 和 Kurapath 证明了 steering 向量在几何上不可唯一确定。对于任何一个能产生特定行为效果的向量，存在无穷多个几何上不同的向量能产生完全相同的行为变化。因果层面的结论（调这个方向会改变行为）成立，但语义层面的解读（这个方向”就是”某个概念的内部表征）需要更保守的态度。

Anthropic 作为信息源的局限。 本文讨论的 SAE 安全审计结果主要来自 Anthropic 的一手披露。Anthropic 在 AI 安全研究中既是研究者又是利益相关方：SAE 的发现论证了他们不发布 Mythos Preview 的决定，也论证了对 SAE 方法的持续投入。这个激励结构要求读者在引用这些结果时保持对来源局限性的意识。

小结

abliteration 和 Anthropic 的情绪向量/SAE 研究是同一个数学原理（线性表征假说）的两种应用，通过同一批研究者和机构交叉连接。它们分别回答了两个镜像问题：我们能不能从模型内部移除一个概念？（可以。）我们能不能在模型内部注入或监控一个概念？（也可以。）

两者共同揭示的核心事实是：当前安全训练在模型内部的实现方式具有线性结构，这使得它既可以被线性操作移除（abliteration），也可以被线性工具监控（SAE 探针）。这个事实同时定义了 AI 安全的风险面和防御面。

开源工具链已经成熟到可以让任何有基本 ML 背景的人在自己的模型上复现这些操作。对于使用或构建 AI 系统的人来说，理解这个技术全景有助于更准确地评估开源模型的安全边界，判断安全声明的实际含义，以及理解模型行为背后的内部机制。