追踪大型语言模型的思考

大型语言模型(LLM)的思考过程,一直是个谜。因为它的参数太多,无法直接分析。不过最近,AI 公司 Anthropic 从神经科学领域获得灵感,以类似研究生物大脑的方式,研究了 LLM 的思考方式,得到了许多有趣的发现。

被研究的模型是 Claude 3.5 Haiku,研究者找到了确凿的证据证明了 LLM 使用通用的思维语言,提前计划未来输出的词语。但也存在令人担忧的「欺骗」,亦或是某种双重思想,部分实验如下:

分别让 Claude 说出 small、「小」和 petit 的反义词,发现 Claude 除了激活该语言关于小与大的部分,也会激活共享空间里关于小与大的含义部分。比起小语言模型,LLM 语言间的共享特征比例更大。所以训练更强的 LLM,其跨语言能力也会更强,因为更能利用上其他语言的知识。

Claude 的心算很奇怪,计算结果不超过 100 的两位数加法时,它分别计算出了近似值与个位精确值。比如 36 + 59,Claude 并行算出了 88-97 的范围,以及精确的个位数 5,最后得出 95 这个结果。而当询问 Claude 的计算过程,它只会复述标准的个十位相加流程,无法说出自己真正的思考方式。

其它实验结果及其论文链接,可以阅读 Anthropic 的 Tracing the thoughts of a large language model 博文。

#science
 
 
Back to Top