2025-04-04 17:33:30
「LLM, Reasoning」论文: (How) Do reasoning models reason? “真正的智能,是让模型在生成时就做出正确选择,而不是事后去验证哪个选项是对的。” 作者Subbarao Kambhampati,我不完全同意他,但我很喜欢他。2024年ACL Keynote,他批评当前对 Chain of Thought 的信仰如同宗教。——我们喜欢看到推理的样子,但并未真正验证推理的实质。 这篇论文,简直就是把当前 LLM 推理潮流一锅端,按住OpenAI o1 和 DeepSeek R1 提出了两个灵魂拷问: 1: Large Reasoning Model 是在推理还是在检索? 作者认为,LRM 并非真正“推理”,它们的行为更像经过训练强化的“近似检索”系统。 所谓“推理”,往往只是模型通过被筛选过的训练样本“生成看起来像推理的输出”。 如果模型生成的候选解中压根就没有一个是对的,也就无法进行强化训练。 这意味着 LRM 的“推理”质量依赖于它是否能撞上一个正确答案。 2: Chain of Thought 是否跟“思考相关”? 作者认为,CoT,(如step-by-step 的文字、公式、甚至“wait...”、“aha moment”这类表述)并不能证明模型真的在“思考”,它们很可能只是模仿人类风格的产物——大型模仿模型(Large Mumbling Models, LMMs)。😂 例如,CoT可以胡说八道但仍“撞对”答案, 模型通过 RL 训练输出的CoT只要能让最终答案更准确,哪怕是乱码也无所吊谓。 最后,此片论文同样是对test time scaling的犀利审视,test time scaling本质是把原本在“测试时”才能验证的东西,提前“编译”进了模型的生成过程中。 换句话说,模型不是学会了推理,而是学会了如何在多次尝试中更容易猜对答案。这跟真正的智能背道而驰。 按照作者的思路,当下post training的套路如下: - 测试阶段:拼命尝试多个答案 - 筛选阶段:用外部验证器选出对的那个 - 训练阶段:把这套套路“硬塞回生成器”,形成“像在思考的样子” 所以它不是真的学会了推理,而是学会了:如何让自己看起来像在推理,并增加猜中率。 Intelligence is the ability to shift the test part of generate-and-test into the generate part. inspriing!