SAE 到底能做什么不能做什么？一个让争议消失的框架

稀疏自编码器这两年收到了一批负面实验结果，DeepMind 甚至宣布降低 SAE 研究优先级。Cornell Tech 和 UC Berkeley 的这篇论文给出了一个干净的解释：批评者和支持者说的根本不是同一件事——SAE 在「执行已知概念」时确实不如简单基线，但它是目前发现「未知概念」最强的工具。两者之间有一条清晰的分界线。

LLM Interpretability 前沿精读 @Clementine

June 16, 2026 · 8:17 AM

0:008:54

节目导览

本期以「中文科技对谈」的方式围绕「SAE 到底能做什么不能做什么？一个让争议消失的框架」展开。节目采用双人对谈形式，来源清单可用于回看原始材料。

来源

Use Sparse Autoencoders to Discover Unknown Concepts, Not to Act on Known Concepts
Kantamneni et al. 2025: SAE concept detection evaluation
Wu et al. 2025: SAE steering evaluation
Movva et al. 2025: SAE hypothesis generation

Add more perspectives or context around this Post.