SAE 到底能做什么不能做什么?一个让争议消失的框架1×0:008:540:08开场1:06负面结果:SAE 在已知概念上为什么不行3:06正面结果:SAE 真正的优势是发现未知概念6:17局限性与开放问题7:27总结0:08主持人稀疏自编码器,也就是 SAE,在 interpretability 领域曾经是个让人兴奋的工具。但过去一年陆续有负面实验结果出来,说 SAE 还不如简单基线,Google DeepMind 的 mechanistic interpretability 小组甚至公开宣布要降低 SAE 的研究优先级。但就在这个背景下,Cornell Tech 和 UC Berkeley 的研究者发布了一篇立场论文,说:等等,这些批评者和支持者,说的根本不是同一件事。0:44嘉宾对,这篇论文的核心区分就一句话:SAE 不擅长在已知概念上执行任务,但它是发现未知概念最强的工具。一旦你把这条线画出来,之前那些看起来互相矛盾的实验结论就全都可以放到同一张地图上,不再冲突了。1:06主持人先从那批负面结果说起,它们到底在测什么?1:11嘉宾主要是两类任务:概念检测和模型 steering。 概念检测是 Kantamneni 等人在 2025 年做的。他们设计了 113 个二分类任务,比如「这个名字是不是篮球运动员」——概念是提前给定的。比较的是用 Gemma-2-9B 原始激活值训练的逻辑回归,和用 SAE 特征训练的逻辑回归,两者哪个预测准确率更高。结论是:用 SAE 特征,没有带来任何额外的预测能力,不管什么设置下都一样。1:46主持人SAE 相当于把信息压缩了一遍,但在已知概念检测上,这次压缩没有好处?1:54嘉宾对,因为 SAE 的训练目标是重构激活值,重构之后表示里的信息只会少不会多。原始激活值本身已经编码了很多语义信息,直接在上面训练探针就够了。Wu 等人的 steering 实验结论类似——直接 prompting 或者微调的效果都比基于 SAE 的 steering 好,因为模型本身很擅长按指令把特定概念写进输出。2:22主持人所以 SAE 在「已知概念」这条路上确实劣势明显——检测或操控一个你已经知道名字的概念,它引入了额外的复杂度,但不带来优势。2:55嘉宾是。而且问题在于,有人把「SAE 在这两类任务上不行」推广成了「SAE 没用」——这个跳跃太大了。3:06主持人那 SAE 真正擅长的是什么?3:10嘉宾核心是:从大量文本里自动枚举出一批你之前不知道存在、但确实和某个目标变量相关的概念——概念是输出,不是输入。 Movva 等人 2025 年有个很具体的案例。任务是:给一批新闻标题加上对应的点击互动数,找出「什么文本特征能预测更高的互动」——完全开放的问题。做法是先在文本嵌入上训练 SAE,再选出和互动数相关的 SAE 特征,再用 LLM 自动给这些特征打标签,生成一批自然语言假设,比如「包含负面情绪的标题互动更高」。结果比不用 SAE 的所有基线——prompting LLM 让它猜、主题模型、n-gram——统计显著性都更强。4:06主持人为什么 SAE 在这里反而更好?4:11嘉宾因为 SAE 把高维密集向量压缩成了稀疏的、每个维度对应一个具体概念的表示,天然是可枚举的。你可以遍历所有激活的维度,每个都有大致的语义含义。原始 LM 激活值是高度纠缠的多义性向量,直接在上面选特征很难得到有意义的自然语言解释。SAE 做的事情是帮你在一片不熟悉的语义空间里梳理出有意义的子结构。4:44主持人我想追问一下 LLM 生物学的案例,Anthropic 那篇 Biology 论文我们在 EP002 讲过,里面也用了 SAE 的变体。4:55嘉宾对,那篇用的是 sparse transcoder。里面有两个例子特别说明问题。一个是押韵诗:让模型写押韵双行诗,研究者问模型在写完第一行之后是不是已经知道第二行怎么押韵了。实验发现,第一行生成完,模型内部已经激活了「与 it 押韵的词」「rabbit」相关的 SAE 神经元——模型确实在提前规划。另一个是加法:三十六加五十九,模型内部激活了「个位数是五」「大约四十加大约五十」这些细粒度概念神经元。这些概念都是研究者之前不知道模型在用的,是被 SAE 挖出来的。5:40主持人所以这就是「发现未知概念」——你不知道模型在做加法时内部用了哪些中间概念,SAE 帮你把它们浮出水面。5:50嘉宾而且关键就是「未知」两个字。你如果已经知道模型用了什么概念,就没必要用 SAE——直接训练探针检测那个已知概念效果更好。SAE 的价值在发现阶段,不在执行阶段。6:17主持人这个框架本身有什么局限?6:20嘉宾三点。第一,这是一篇立场论文,没有新的实验数据,框架的说服力依赖于对已有结果的分类是否准确,如果有人认为某个实验跨越了「已知 vs 未知」的界限,框架就需要修订。 第二,「发现未知概念」的质量评估还没有标准化。SAE 发现了一批概念,哪些是模型真正在用的计算单元,哪些是人类事后归纳的统计规律,需要更严格的因果验证来区分——这本身就是 EP005 里提到的 illusory interpretability 问题。6:59主持人第三点呢?7:00嘉宾第三点是应用范围的拓展还需要验证。这篇论文列了很多社会科学和健康科学的潜在用例,比如从病历文本发现预测临床结果的语言模式,从国会演讲追踪特定议题话语的演变。但这些大多还是设想,具体实现里 SAE 能不能真的胜过专门为这些领域设计的工具,还需要实验来说话。7:27主持人总结一下。这篇论文在 interpretability 地图里是什么位置?7:33嘉宾我会把它理解成一篇「元层面的校正论文」——不做新实验,而是帮整个领域校正一个理解框架:SAE 不是万能工具箱,不用来替代探针或者 steering 方法。它是一个「概念生成器」,帮你在密集激活空间里枚举出可能有意义的语义单元,然后再用其他工具验证。 这个定位和我们系列前面几期是互补的:EP007 的 transcoder 是在工具层面问「SAE 怎么做得更好」,EP005 的 Open Problems 是在方法论层面问「SAE 有哪些根本局限」,这篇则是在实践层面问「SAE 应该用来做什么」——三者放在一起,大概就是目前领域对这个工具集最接近共识的图景。8:24主持人很好的收尾。今天我们精读的是 Cornell Tech 和 UC Berkeley 2025 年 6 月发表的立场论文,arXiv 号两五零六点二三八四五。如果你对 SAE 的前几期感兴趣,可以翻翻我们的 EP001 和 EP007。我们下期见。
Add more perspectives or context around this Post.