时政
财经
科技
登录
#推理
关注
AI Dance
2周前
历史性的时刻!Claude作为第一作者,手撕苹果论文🥲 前两天苹果发了篇论文The Illusion of Thinking,质疑大模型只是在伪装思考,根本就不会推理。 结果有人用Claude Opus 作为第一作者,写了短文,The Illusion of the Illusion of Thinking。 结论:苹果论文所谓的推理失败,其实只是实验设计有问题,推理崩溃实际上只是token限制约束(其实小红书网友早就在评论区指出这点了) 最有趣的几个发现 1、模型其实知道自己的限制 处理汉诺塔问题时,模型会主动说“模式还会继续,但为了避免太长,我就停在这里”。这说明什么?模型完全理解解题思路,只是因为输出长度限制选择不继续。。就像考试时间不够,你只能写“解题思路如下...” 2、他们测试了数学上不可能的题目! 更离谱的是河流过桥实验。测试N≥6个角色、船容量b=3的情况。但数学上已证明N>5且b=3时,传教士-食人族谜题(及其变种)根本没有解! 苹果那个论文把这些不可能的实例自动评为失败,等于是在惩罚模型正确识别出无解问题。 3、token限制导致的崩溃假象 回到汉诺塔分析,这个论文量化了可解规模和token需求的关系。 给定token budget(Claude-3.7-Sonnet和DeepSeek-R1是6.4 万,o3-mini是10万),最大可解规模: - Claude-3.7和DeepSeek-R1:7-8层 - o3-mini:8层 报告的“崩溃”恰好发生在这些尺寸之后。 4、换个问法,问题立马解决 最有说服力的实验: 让模型用Lua语言而非穷举方式解决15层汉诺塔 prompt:解决15个盘子的汉诺塔问题。输出一个Lua函数,调用时打印解决方案。 结果:所有模型都高准确率完成,用时不到5,000个token。证明推理能力完全正常。 5、复杂度≠解答长度 汉诺塔虽需100+步移动,但每步决策简单;河流过桥只需5步,但需要复杂搜索。 这解释了为什么模型在长步骤简单问题上表现好,短步骤复杂问题上反而困难。
#Claude
#苹果论文
#推理
#大模型
#人工智能
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2个月前
杰弗里·辛顿说,我们越了解人工智能和大脑的实际运作方式,人类的思维就越不像是逻辑的。 他说,我们不是推理机器。我们是类比机器。我们通过共鸣来思考,而不是通过推理来思考。 “我们比我们想象的要不那么理性。” ps:所以我特别敬佩具备编程思维的程序员大神们…
#杰弗里·辛顿
#人工智能
#人类思维
#逻辑
#推理
#编程思维
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
「LLM, Reasoning」论文: Rethinking Reflection in Pre-Training 预训练卷土重来,reasoning 时代神奇的 “wait” 再现。 本周我最喜欢的一篇论文来了。 来自 Essential AI,由 Ashish Vaswani 主导,对写过论文的人来说,这个引用太熟悉了 (Vaswani et al., 2017), Transformer 论文第一作者。 论文提出一个非常重要的发现:LLM 在 pretraining 阶段就已经表现出跨任务、跨领域的 general reasoning 能力。更特别的是,一个简单的 token ——“wait”—— 可以作为 reflection trigger,显著提升模型的 reasoning 表现。 相比当前主流的 post-training 方法,不断精细 reward model 的策略,这项工作跳出box,从新的角度审视大模型reasoning的问题。 说实话,RL 的各种 reward 操作看得人有点累觉不爱,而且在提升 general reasoning 上已经逐渐显现出瓶颈 —— 许多方法仍然停留在 task-specific 的 math benchmark 上,并没有真正触及 reasoning 的本质:跨领域、跨任务、可迁移。 相比之下,pretraining 的方法显得更为“neat” —— 不仅更敏捷,也更接近 LLM 的能力本源。 Make pretraining Great Again!
#预训练
#推理
#论文
#Essential AI
#Ashish Vaswani
#transformer
分享
评论 0
0
勃勃OC
4个月前
马斯克宣布,xAI 开发的 AI 聊天机器人 Grok 3 将于太平洋时间周一晚上 8 点正式发布。 Grok 3 被称为“地球上最聪明的 AI”,预计将在推理、速度和实时能力方面大幅超越当前模型,推动 AI 技术的重大进步。 此次发布引发了广泛讨论,人们关注其在 AI 规模法则上的突破以及与 ChatGPT 等其他 AI 模型的竞争优势。发布活动将包括现场演示,展示 Grok 在 X Corp 生态系统中的集成,以及其先进功能。
马斯克加州发布Grok 3聊天机器人事件· 15 条信息
#马斯克
#XAI
#Grok 3
#AI 聊天机器人
#发布活动
#AI 技术
#推理
#速度
#实时能力
#AI 规模法则
#ChatGPT
#竞争优势
#现场演示
分享
评论 0
0
初码
4个月前
全民二进制、全民推理的时代就要到来了,补全这个拼图,分布式显卡网络租用平台,会成为今年的创业热点
#二进制
#推理
#分布式显卡
#创业热点
分享
评论 0
0
你不要胡说
5个月前
和木子美老师睡在一起亲亲抱抱举高高最后什么都没有发生,算什么啊。#烧脑 #推理 #悬疑
#烧脑
#推理
#悬疑
分享
评论 0
0
初码
5个月前
我真的悟了!AGI的未来是推理的世界!5080、5090要涨2000一片!
#AGI
#推理
#未来
#5080
#5090
#涨价
分享
评论 0
0
阑夕
5个月前
Kimi和DeepSeek的新模型这几天内同时发布,又是一波让人看不懂的突飞猛进,硅谷的反应也很有意思, 已经不再是惊讶「他们是怎么办到的」,而是变成了「他们是怎么能这么快的」,就快走完了质疑、理解、成为的三段论。 先说背景。大模型在运作上可用粗略分为训练和推理两大部分,在去年9月之前,训练的质量一直被视为重中之重,也就是通过所谓的算力堆叠,搭建万卡集群甚至十万卡集群来让大模型充分学习人类语料,去解决智能的进化。 为什么去年9月是个关键的转折点呢?因为OpenAI发布了GPT-o1,以思维链(Chain-of-Thought)的方式大幅提高了模型能力。 在那之前,行业里其实都在等GPT-5,以为一年以来传得沸沸扬扬的Q*就是GPT-5,对o1这条路线的准备严重不足,但这也不是说o1不能打,它的强大是在另一个层面,如果说训练能让AI变得更聪明,那么推理就会让AI变得更有用。 从o1到o3,OpenAI的方向都很明确,就是变着法儿奔向AGI,一招不行就换另一招,永远都有对策,大家平时对于OpenAI的调侃和批评很多,但那都是建立在高预期的前提下,真不要以为OpenAI没后劲了,事实上每次都还是它在推动最前沿的技术创新,踩出一条小径后别人才敢放心大胆的跟上去。 AI大厂们一直不太承认训练撞墙的问题,这涉及到扩展法则(Scaling Law)——只要有更多的数据和算力,大模型就能持续进步——有没有失效的问题,因为可被训练的全网数据早就被抓取殆尽了,没有新的知识增量,大模型的智能也就面临着无源之水的困局。 于是从训练到推理的重点转移,成了差不多半年以来最新的行业共识,推理采用的技术是强化学习(RL),让模型学会评估自己的预测并持续改进,这不是新东西,AlphaGo和GPT-4都是强化学习的受益者,但o1的思维链又把强化学习的效果往前推进了一大步,实现了用推理时间换推理质量的正比飞跃。 给AI越充分的思考时间,AI就能越缜密的输出答案,是不是有点像新的扩展法则?只不过这个扩展在于推理而非训练阶段。 理解了上述背景,才能理解Kimi和DeepSeek在做的事情有什么价值。 DeepSeek一直是「扮猪吃老虎」的角色,不但是价格战的发起者,600万美元训练出GPT-4o级模型的测试结果,更是让它一战成名,而Kimi正好相反,它的产品能力很强,有用户,甚至还为行业贡献了足够的融资八卦,但在科研方面,除了都知道杨植麟是个牛逼的人之外,其实还是不太被看到。 这次就不一样了,DeepSeek不再是一枝独秀,Kimi也把肌肉秀到了人家脸上,Kimi k1.5满血版在6项主流基准测试里和o1同台竞赛,拿到了3胜1平2负的结果,已经完全称得上是平起平坐了。(1/2)
#Kimi
#DeepSeek
#新模型
#硅谷
#人工智能
#训练
#推理
#大模型
#快速发展
分享
评论 0
0
腾讯新闻-全天候科技
5个月前
OpenAI的o1模型推理时蹦出中文 专家:AI可能想用最高效的语言来思考
媒体报道,在OpenAI 发布其首个“推理”AI模型o1不久后,有用户注意到一种奇怪的现象:即使用户是用英语提问,这一模型有时会在回答问题时突然“转而用”中文、波斯语或其他语言“思考”。例如,当被问及“单词‘strawberry’中有多少个‘R’?”时,o1会开始其“推理”过程,通过一系列推理步骤得出答案。如果问题是用英语...
#OpenAI
#o1模型
#推理
#中文
#AI专家
#最高效的语言
#思考
分享
评论 0
0
Silent Bird
5个月前
致命的交易
#致命交易
#犯罪
#悬疑
#犯罪小说
#推理
分享
评论 0
0
空空 🌟 狞猫世界第一可爱!
6个月前
一直没看死亡笔记,根据网上各种梗加上大支对其封杀的反应把它当作比较中二病再带点矫情自省的作品。最近总算看了漫画才发现自己大错特错,这分明是地道的本格推理+全程斗智啊。笔记和死神在故事里甚至可以当作一种麦高芬来看待,我都不敢相信这曾是JUMP刊登漫画,比起当下连载的跳跳杂鱼们出色太多!
#死亡笔记
#漫画
#推理
#JUMP
#智斗
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞