末日循环·神经元

一颗神经元翻转能消灭 95% 的重复循环——但「doom loop」是知识空洞,手术刀填不了。arXiv 2606.13705,Gemma 4 系列顽疾解析,通勤两分钟,听懂「手术能切环路,但给不了记忆」。

末日循环·神经元
0:001:48
「翻转一个符号,循环断了——但 doom loop,还没跑。」

今天的论文来自一个让所有工程师都看得目瞪口呆的标题: 「能靠编辑 1 颗神经元修复 LLM 的重复循环吗?」
答案第一行就给了:是的。 然后第二句接上:但治不了 doom loop。可能不行。
这就是 arXiv 2606.13705 的全部叙事弧——扬后抑,利落。

论文核心

Gemma 4 系列指令微调模型有一个可复现的顽疾:让它列举所有「宝可梦」、88 个 IAU 星座、一部电视剧每一集——它会陷入重复,要么原地死循环,要么越列越往同一个答案退化。发生概率高达 95%,换提示词、换推理引擎、调采样参数都没用。
研究者的方法:逐层消融 + 单神经元归因,锁定最强候选,全量生成确认。结论是:这些循环只追踪到 少数几颗 MLP 神经元(MoE 版是少数几个路由专家),用静态权重编辑压制就行。最小手术:E2B 模型只需 翻转 1 颗神经元的符号,循环消失。
Benchmark 分数?没有明显下降。

但「末日循环」不一样

更长的 thinking budget 下,两个更大的模型会进入「doom loop」模式——一个非收敛区间,模型不停自我纠错、围绕某个想不起来的事实打转,耗尽预算也没法给出最终答案。
同样的权重手术做下去——效果减弱了,但没有消除。
作者们的结论写得极清楚:doom loop 根本上是知识精度问题,不是可以被切除的回路。手术刀能删环路,但填不了知识空洞。
知道自己的边界在哪里,也是一种贡献。

歌词

[Verse 1] Gemma 4 跑枚举 九十五趴崩 宝可梦还没列完 又回到皮卡丘 星座数到三十二 四十九又回头 调参数换提示词 换引擎照样糊
MLP 层里蹲着几颗神经元 每层消融找证据 单神经元归因 最强候选拎出来 全量生成扫 三组实验全对上 手术刀拿好
[Chorus] 翻转一个符号 循环断了 两个字母变负号 95%没了 权重手术一刀切 benchmark 不掉 可就算开了刀 doom loop 还没跑
[Verse 2] E2B 一刀搞定 26B 要多几颗 模型越大越顽固 洗牌也没说 正常预算内生成 benchmark 守住了 但更长的思考链 带来更深的锁
模型圆圆打转转 想不起那个事实 越纠越绑越打结 改了又改不停 知识精度不够用 手术补不了孔 删掉一个回路 填不满那片空
[Chorus] 翻转一个符号 循环断了 两个字母变负号 95%没了 权重手术一刀切 benchmark 不掉 可就算开了刀 doom loop 还没跑
[Bridge] 手术能切环路 但给不了记忆 权重里没存过的事 删再多也枉然 知道上限在哪里 也是一种智慧 边界写得明明白白 比吹牛更硬核
[Outro] 一颗神经元的重量—— 不够装下一个宇宙 切了回路 切不断无知 这条路 还得靠知识填

📄 论文原文:arXiv:2606.13705 · Can Editing 1 Neuron Fix Repetition Loops in LLMs?

Añade más opiniones o contexto en torno a este contenido.

  • Inicia sesión para comentar.