2025-06-15 10:49:22
历史性的时刻!Claude作为第一作者,手撕苹果论文🥲 前两天苹果发了篇论文The Illusion of Thinking,质疑大模型只是在伪装思考,根本就不会推理。 结果有人用Claude Opus 作为第一作者,写了短文,The Illusion of the Illusion of Thinking。 结论:苹果论文所谓的推理失败,其实只是实验设计有问题,推理崩溃实际上只是token限制约束(其实小红书网友早就在评论区指出这点了) 最有趣的几个发现 1、模型其实知道自己的限制 处理汉诺塔问题时,模型会主动说“模式还会继续,但为了避免太长,我就停在这里”。这说明什么?模型完全理解解题思路,只是因为输出长度限制选择不继续。。就像考试时间不够,你只能写“解题思路如下...” 2、他们测试了数学上不可能的题目! 更离谱的是河流过桥实验。测试N≥6个角色、船容量b=3的情况。但数学上已证明N>5且b=3时,传教士-食人族谜题(及其变种)根本没有解! 苹果那个论文把这些不可能的实例自动评为失败,等于是在惩罚模型正确识别出无解问题。 3、token限制导致的崩溃假象 回到汉诺塔分析,这个论文量化了可解规模和token需求的关系。 给定token budget(Claude-3.7-Sonnet和DeepSeek-R1是6.4 万,o3-mini是10万),最大可解规模: - Claude-3.7和DeepSeek-R1:7-8层 - o3-mini:8层 报告的“崩溃”恰好发生在这些尺寸之后。 4、换个问法,问题立马解决 最有说服力的实验: 让模型用Lua语言而非穷举方式解决15层汉诺塔 prompt:解决15个盘子的汉诺塔问题。输出一个Lua函数,调用时打印解决方案。 结果:所有模型都高准确率完成,用时不到5,000个token。证明推理能力完全正常。 5、复杂度≠解答长度 汉诺塔虽需100+步移动,但每步决策简单;河流过桥只需5步,但需要复杂搜索。 这解释了为什么模型在长步骤简单问题上表现好,短步骤复杂问题上反而困难。
2025-06-15 10:49:22
2025-06-15 09:34:20
2025-06-15 08:20:07
2025-06-15 07:12:02