AI Dance
3个月前
历史性的时刻!Claude作为第一作者,手撕苹果论文🥲 前两天苹果发了篇论文The Illusion of Thinking,质疑大模型只是在伪装思考,根本就不会推理。 结果有人用Claude Opus 作为第一作者,写了短文,The Illusion of the Illusion of Thinking。 结论:苹果论文所谓的推理失败,其实只是实验设计有问题,推理崩溃实际上只是token限制约束(其实小红书网友早就在评论区指出这点了) 最有趣的几个发现 1、模型其实知道自己的限制 处理汉诺塔问题时,模型会主动说“模式还会继续,但为了避免太长,我就停在这里”。这说明什么?模型完全理解解题思路,只是因为输出长度限制选择不继续。。就像考试时间不够,你只能写“解题思路如下...” 2、他们测试了数学上不可能的题目! 更离谱的是河流过桥实验。测试N≥6个角色、船容量b=3的情况。但数学上已证明N>5且b=3时,传教士-食人族谜题(及其变种)根本没有解! 苹果那个论文把这些不可能的实例自动评为失败,等于是在惩罚模型正确识别出无解问题。 3、token限制导致的崩溃假象 回到汉诺塔分析,这个论文量化了可解规模和token需求的关系。 给定token budget(Claude-3.7-Sonnet和DeepSeek-R1是6.4 万,o3-mini是10万),最大可解规模: - Claude-3.7和DeepSeek-R1:7-8层 - o3-mini:8层 报告的“崩溃”恰好发生在这些尺寸之后。 4、换个问法,问题立马解决 最有说服力的实验: 让模型用Lua语言而非穷举方式解决15层汉诺塔 prompt:解决15个盘子的汉诺塔问题。输出一个Lua函数,调用时打印解决方案。 结果:所有模型都高准确率完成,用时不到5,000个token。证明推理能力完全正常。 5、复杂度≠解答长度 汉诺塔虽需100+步移动,但每步决策简单;河流过桥只需5步,但需要复杂搜索。 这解释了为什么模型在长步骤简单问题上表现好,短步骤复杂问题上反而困难。
去年高考前,我给你们推荐了一个首次招生的捡漏大学:深圳理工大学(中科院深圳研究院本科生部)——结果一下子被广东考生冲爆了。 今年我再给你们推荐一个捡漏大王:上海财经大学计算机系。 我发现上财在很多省(比如河南)的分数线已经极低了,计算机分数线又是上财里的洼地, 然而很多人根本不懂, 上财有个陆品燕,以一己之力把上财TCS(理论计算机)的水平拉到了美国top 20的水平。 最近几年,两财一贸(央财、上财、对外经贸)已经成了过街老鼠,分数线节节败退,财经类专业人人喊打,哪怕上财这种坐镇上海,分数线也已经跌到普通211水平了。 而哪怕在上财内部,直到今天为止,各种会计、投资、金融等垃圾专业,分数线也远远高于计算机。 然而上财计算机不一样,只要有陆品燕一个人存在,上财计算机系就可以和美国top 20、清华、上交掰掰手腕。 今年上财还开了计算机和人工智能学院,陆品燕直接当院长。 我让你们各省份的考生报考上财计算机专业、人工智能专业,就是让你们奔着陆品燕一个人去的,只要陆品燕在,上财计算机的质量就有保证怕; 只要有人想做TCS,能跟陆品燕读硕士或者博士,就有机会做出北美top 20的水平。 只可惜,绝大多数人存在这个认知壁垒,认为上财是个财经学校,是个垃圾中的垃圾,学金融会计经济等于找死,避之不及。 趁着现在很多人还在填志愿,我必须要把这个认知壁垒打破—— 分数够的前提下,不要考虑各种传统理工科985和211——直接选上财,选计算机系,不服从调剂,赌一赌,人生捡个大漏。