#持续学习

indigo
1个月前
就像 Demis 所说的,我们距离人类级别的通用智能还需要至少两个范式突破!最近 X 上备受关注的来自 Google Research 的论文「Nested Learning」也许能带来一些突破的希望,团队用 HOPE 作为验证架构的名字,足以显示其信心,它会不会是下一个 Transformer 呢?竟然又出自于 Google … 现在 LLM 最大问题,就是“灾难性遗忘”。虽然它们功能强⼤,但本质上是静态的,在预训练后就停⽌学习,⽆法持续获取新知识。这种状态类似于“顺⾏性遗忘症”:模型拥有⻓期记忆(预训练知识)和短暂的⼯作记忆(上下⽂窗⼝),但两者之间的桥梁是 断裂的, ⽆法形成新的持久记忆。简单地堆叠更多层(增加深度)并不能解决这个根本 问题。 真正的深度不是空间的“高”,而是时间的“深”。Nested Learning (NL) 认为,模型不应该是一个静态的千层饼,而应该是一组嵌套的齿轮系统 。 - 有些齿轮转得慢(长期记忆/预训练知识) - 有些齿轮转得快(短期适应/上下文学习) - 真正的智能,是不同转速的齿轮在同时咬合、运行 我们的大脑,是在多时间尺度上进行“持续学习”的。神经元结构的⼀致性使得⼤脑可以灵活地重组⾃身;⼤脑不依赖于单⼀的中央时钟,而是用不同的神经回路以不同的频率运作(如脑电波),实现快速整合与⻓期巩固的平衡。 深度学习其实是嵌套学习的“扁平化”投影,就像低维是高纬的平面化投影一样。在 NL 框架下,每个“层级”都有其⾃身的“上下⽂流”和“更新频率”,这使得所有内部学习过程都变得透明且可⽤数学语⾔描述。这样,模型不需要让所有参数都用同一个速度更新,让浅层参数快速适应(像海马体处理新记忆),而让深层参数缓慢沉淀(像大脑皮层存储旧知识)。 优化器(Optimizer)本质上就是一种记忆系统。这是论文中最具颠覆性的洞见,假如你把梯度下降看作是一个“正在学习如何遗忘和记忆”的过程呢? - SGD 是一个初级记忆体,它试图把数据映射到“惊讶”(Error / Surprise)上; - Momentum(动量)是一个更高阶的记忆体,它记住了过去梯度的方向; 整个神经网络,从优化算法到注意力机制,本质上都是一个个嵌套的、试图压缩信息的循环。并没有所谓的“架构” vs “算法”,它们是一体两面。 — 现在,团队从第⼀性原理出发,设计⼀个完全拥抱嵌套学习范式的模型架构 - HOPE,它不是简单的 Transformer,更像一个能自我进化的系统: - Self-Modifying Titans(自我修改的泰坦): 它能学习如何修改自己的更新算法,这就像一个人不仅在学习知识,还在学习“如何学习”; - Continuum Memory(连续谱记忆): 抛弃非黑即白的“长/短记忆”二分法,建立一个多级变速的记忆齿轮箱; HOPE 不仅是⼀个理论构造,它在实践中也展现了 SOTA 性能,在 1.3B 参数规模下优于 Transformer / RetNet / Titans,尤其在语言建模和常识推理上。 我觉得这篇论文的名字取得很有深度,很多人把它并比作“Attention is All You Need V2”。传统深度学习的“深度”只是计算的⼀维视⻆,这是过去的幻象;现在的现实是:嵌套学习揭示了第⼆个维度 —— 拥有不同更新频率的“学习层级”。 这个新视⻆不仅帮助我们更好地理解现有模型,更重要的是,它指导我们设计出像 HOPE 这样更强⼤、 具备持续学习能⼒的新架构。
indigo
1个月前
面对 Scaling 和 Research,作为投资人你会选哪个?这是 Ilya 做客 Dwarkesh Patel 播客最核心的话题(全网都是 AI 总结,我写点不一样的)。Scaling 有一个无法拒绝的优点:投资逻辑简单、风险可控;你只要相信那条曲线 —— 更多算力,更多数据,就会有更好的模型。“买更多 GPU ”比“押注一群 Researcher 可能十试九败”的决策要安心得多 。。。 “真的有人相信,再大 100 倍规模,一切就会被彻底改变吗?我不这么认为。” Ilya 的结论是:“我们要回到了研究时代,只不过这次手上有了大电脑。” 这也是 SSI 成立的初衷之一,接下来真正值得投入的,不是买多少 GPU,而是能否发明新的学习方式、新的价值函数、新的泛化结构。三十亿美金的融资,足够 SSI 烧 5-10 年了,这起步可比 OpenAI 牛逼很多! Ilya 是出了名的口风紧,但他这次分享的观点,在很多角度与 Richard Sutton 的研究有很多异曲同工。Sutton 教授 Dwarkesh 的播客里也分享过:LLM 不会在交互过程中持续学习,所以无论怎么 Scale,都不够,必须有新架构支持。在 Alberta Plan 里,他把未来十年 AI 的核心研究压在:Continual Learning(持续学习)、Meta-learning(学会如何学习)、Agent 在环境中长期交互自我学习,通过研究找到能更好利用算力的新架构和新学习方式,这也是 Google 长期支持他的研究方向。 在《Reward is Enough》一文中,Silver + Sutton 提出一个假说:“最大化累积 Reward 这个通用目标,在原则上足以产生我们在自然与 AI 中看到的大多数能力。” 简单来说:我们不需要给 Agent 手工规定所有子目标;只要有一个合适的 Reward 信号 + 足够强的学习能力,感知、记忆、规划、社交等能力会作为“为了拿 Reward 的工具”自然长出来。 Ilya 在访谈中举了一个经典的病人案例:情绪中枢损伤后,智力尚在,但日常决策能力完全崩溃。情绪是人类大脑里一种粗糙但强力的“价值函数实现方式”,它给复杂世界提供一个简单的“好 / 坏”近似,使我们可以在有限时间做出决策。 做 SSI 的另一初衷,就是 Ilya 不满足于“让 AI 不作恶”这种低标准,他在思考:有没有可能设计一种结构,让 AI 真正“在意”有感知的生命(sentient life),而不是只是冷冰冰地遵循规则。他提出一个直觉:人类对他人的同情、共情,很可能来自这样一个事实—— 我们用“建模自己”的那套神经回路,去建模别人的状态。 那些高层次的“社会在意”(比如尊重、羞耻、道德感),很可能是进化在相对短的时间窗口里嵌入的。这说明:在一个复杂系统里,把高层次价值“硬编码”进去,并不必然不可能 —— 只是我们还不知道怎么做而已。Ilya 最终想要的,可能正如 Hinton 教授最近想明白的,让 AI 超级安全的方法就是把对人类的“母爱”给编码进去,就像大自然给我们的基因编码那样。。。 最后,超强系统必须通过渐进式部署来学习与对齐,而不是直接扔一个成品版的“上帝”给世人。这个新的超级智能就象一个 15 岁的少年,非常聪明,但什么都不懂;你不会把他一下子丢到外科手术台或外交谈判桌前;你会让他一步步接触世界,在真实反馈中学习与成长。对 AI 来说,这也是一个“持续试错 + 渐进开放”的过程,而不是一夜之间发布一个“完美终极系统”。 Ilya 对 SSI 所做事情的愿景: - 如何让模型的泛化真正变好; - 如何让系统在持续学习中保持安全与稳定; - 如何设计一种架构,使得“理解世界”的方式与人类更加相容; 在未来 5 – 20 年内,能像人类一样学习,并超越人类。这个时间线和 Deepmind 的 CEO Demis 预测的基本一样,我们还需 5 - 15 年才能实现人类这样的通用智能,这期间还需要至少一到两个研究范式的突破! 站在投资视角,大语言模型的范式红利才刚开始,通过工程化和应用场景的普及,会推动软件、工作和社会结构的转型,这需要巨大的算力作支撑;但在多样化的新范式研究上,要寻找潜在的类似 Transformer 架构这样的突破,它们可能来自 SSI、Thinking Machine Lab、Anthropic 等前沿 AI 实验室,也极有可能是 Google,但 OpenAI 这就得看 Sam Altman 的野望在什么地方了 。。。
看完了,放飞自我 没有预训练,训练就是推理,推理就是训练,我们所有生物都没有把这个过程分开,AI也不应该分开。 之前yann lecun说过,现在的模型的数据效率只有人类的1/1000,某种程度上,这个和模型泛化能力差是一体两面。 我觉得,最终,持续学习,记忆,泛化能力,数据效率,所有这些问题我们会发现,都是同一个问题的不同表现形式。 我们未来会发现,对所有这些问题的解决方案会是非常的简洁,就像我们在上一波ML浪潮中面对的最大的敌人:常识,的解决方案非常简单一样。我们下一波的解决方案也会非常简单,最关键的是,容错性会非常高。大自然各种不同的生物,大脑长得奇形怪状什么样子都有,但是它们都可以在自然界生存,都可以捕食,躲避天敌。现在的模型在数学上都过于fancy了,最终的结局都会像SVM一样,数学上很漂亮,但是还是会被扫进历史的垃圾桶,简单的东西才是最美的。 我们人类的“绝妙的视觉先验”绝无可能保存在DNA中,DNA根本没有空间编码信息量那么高的世界模型。 我怀疑脑区的产生源自于大脑皮层如何连接各种感官的,眼睛传入的视觉信号不断刺激一部分神经元,使其兴奋,并让周围的神经元产生共振,形成脑区。 大脑初始状态应该是没有结构的,是由信号刺激形成的结构,所以神经网络的架构也应该是是涌现的才对,现在这么多复杂的结构也将是一个bitter lesson。
宝玉
2个月前
这篇文章确实是指出了当前 LLM 存在的问题,但解决方案并不见得可行,另外这文章实在太长了点。 如果几句话总结一下,这篇文章主要就是想讲清楚:强化学习(RL)的教父、图灵奖得主 Richard Sutton 到底在担心什么?为什么我们现在的 Agent 这么“笨”?以及,我们该如何跨过这道鸿沟? Sutton 就是“AI 圣经”《苦涩的教训》(The Bitter Lesson) 的作者,他的理念就是: > 在人工智能领域,长远来看,依赖大规模计算的通用方法(如搜索和学习)最终将胜过依赖人类专家知识的复杂方法。 按理说,他应该对 GPT-5、Claude 这样的大模型拍案叫绝才对。 但他没有。相反,他直言不讳:今天所有的 LLM(大语言模型)都是一条死路。 为什么?Sutton 的原话:LLM 只是在模仿人会“说什么”,而不是在理解世界是“如何运转”的。 这个观点引发了很多讨论,AI 大神 Andrej Karpathy 前几天在播客中也对此有回应和深入探讨(参见: )。 > “我以前就说过,人类不使用强化学习。我认为人类的学习方式完全不同。强化学习比普通人想的要糟糕得多。强化学习很烂。只不过,我们以前有的其他算法比它还要烂得多罢了。” 两位大神都在揭露一个真相: 我们今天津津乐道的“推理器”(Reasoner),离一个真正的“智能体”(Agent)还差得远。而这个鸿沟,就叫“持续学习”。 1. 为什么 Sutton 说 LLM 是“死路”? Sutton 的批评主要集中在两点。 批评一:LLM 是“鹦鹉”,不是“物理学家” Sutton 说,LLM 根本不是真正的“世界模型”。 - 真正的世界模型:能预测“如果我做了A,世界会发生B”。比如,我松开手(动作A),杯子会掉地上摔碎(结果B)。这是对因果和物理规律的理解。 - LLM 在做什么:它在预测“如果我问了A,人类会回答B”。比如,我问“杯子掉了会怎样?”,它会回答“会摔碎”。 看到区别了吗?LLM 是在模仿一个“观察者”会如何描述这个世界,而不是作为“参与者”去理解这个世界的规律。它学的是“人会说什么”,而不是“世界会怎样”。 批评二:现在的强化学习“笨得可以” Sutton 的另一个批评是,我们现在主流的 RL 算法(比如 PPO)样本效率低到发指,而且它们只从“奖励”中学习,不从“观察”中学习。 这话说得有点绕,用原文里的一个例子,你一下就懂了: > 假设我们开发一个 AI Agent,帮用户打电话给 Xfinity(一家运营商)客服。 > > 第一次尝试:Agent 打过去,客服说:“我需要您的信用卡后四位来验证身份。” Agent 没有这个信息,任务失败,挂断。 > > 好了,问题来了: > > - 传统 RL Agent (PPO):它只知道这次尝试失败了(Reward = 0)。它不知道为什么失败。客服明明已经告诉它答案了(“需要信用卡后四位”),但这个信息是“观察”(Observation),不是“奖励”(Reward)。所以,这个笨蛋 Agent 只能下次再试,再失败……可能要试几百次,某一次瞎猫碰上死耗子,它碰巧提供了信用卡信息,成功了(Reward = 1),它这才“学会”了。 > > - 人类:第一次被告知需要信用卡信息,立刻就记住了。下次打电话前就会主动要这个信息。 这就是差距。人类能从环境的丰富反馈(观察)中学习,而现在的 RL 算法大多是“无模型”的,它们只关心“我这么做能不能拿分”,而无视了环境给出的所有其他宝贵信息。 2. “无限上下文”的陷阱:为什么 RAG (检索增强生成)不是学习? 很多人可能会反驳:“没关系,我们现在有超长上下文(Long Context)了!我把 Agent 第一次失败的经验(“客服要信用卡后四位”)直接放进下一次任务的提示词里不就行了?” 这就是目前大多数 Agent 的做法,包括 In-Context Learning(上下文学习)或者 RAG。 但这是对“学习”最大的误解。 把历史记录塞进上下文,不叫“学习”,这叫“开卷考试”。 原文中打个比方: > 让你计算 100 个案例中黑猫和白猫的比例。 > > - 真正的学习(压缩):你看完一遍,在脑子里总结出一个结论:“90只黑猫,10只白猫”。下次再问你,你直接给出答案。 > - 长上下文(RAG):你把 100 个案例的原始记录全堆在桌上。每次有人问你,你就重新把这 100 个案例再数一遍,然后得出结论。 这种方式极其低效,因为知识没有被提炼和压缩。你只是在进行一次又一次的重复检索,而不是把经验内化成了“规律”或“知识”。 AK 在前几天播客里面有一个引起很多人共鸣的结论:人类记性差,这不是 Bug,反而是 Feature(特性)。 正因为我们记不住所有原始细节,才被迫去提炼、总结、压缩知识,找出事物背后的规律。而这个“压缩”和“提炼”的过程,才是学习的本质。 3. “新员工”的困境:为什么 Agent 没法“上班”? 这就引出了一个核心问题:为什么现在的 Agent 解数学题比99%的人都强,但你让它去你公司干个具体工作,它却一塌糊涂? 你可以这么想:你找一个再聪明的天才,不培训就让他来你公司上班,他能干好吗? 大概率不能。因为他不知道: - 公司的代码规范 (Coding Style) - 公司的业务逻辑和黑话 - 团队的协作流程 - 哪些是不能碰的隐形红线 这些知识,绝大部分是非公开的、特定的、隐性的,你没法用一个简短的 prompt 教会它。 人类是怎么做的?在工作中持续学习。 这就带出了 Sutton 坚信的“大世界假设”(Big World Hypothesis):世界上的信息是无限的,模型不可能在预训练阶段就学完所有东西。你必须在与具体环境的交互中不断学习新知识。 而很多 LLM 派持有的是“小世界假设”:世界是复杂的,但规律是简洁的。只要模型足够大(比如 GPT-5),就能掌握绝大部分重要知识,不需要再学了。 显然,现实世界更符合“大世界”假设。 4. 怎样才算“真学习”?从“奖励”到“预测” 既然必须持续学习,而传统 RL 又那么笨(只认 Reward),那该怎么办? 原文作者结合实践,提出了一个非常有启发的改进思路,我把它称为“双 LoRA”策略。(LoRA 是一种高效微调技术,你可以理解为给大模型打上一个小小的“能力补丁”) 这个策略的核心是:在学习“怎么做对”(Policy)的同时,也要学习“世界会怎样”(World Model)。 回到那个 Xfinity 客服的例子: 1. LoRA 1 (策略补丁):它还是从 Reward 学习。任务失败,Reward = 0,它学不到东西。 2. LoRA 2 (世界模型补丁):它不关心 Reward,它的唯一任务是预测环境的下一个反馈。当客服说“我需要信用卡后四位”时,这个补丁会因为“预测失败”(它没料到客服会说这个)而产生一个 loss,然后它就会更新自己,学会“哦,原来打电话给 Xfinity,对方会要信用卡信息”。 看,这就是一种时序差分学习(TD-Learning)。Agent 不再是只看重“得分”的偏科生,还成了能“理解”环境反馈的好学生。 效果是天差地别的: - 传统 RL:要试几百次才能学会。 - 双 LoRA:只要 1、2 个 step 就能学会。 这,才开始有点“持续学习”的样子了。 5. 另一个“致命”瓶颈:AI 为什么反应这么慢? 解决了学习效率,还有一个大问题:现在的 Agent 交互起来为什么那么“卡”? 明明模型的输入输出速度(token/s)都比人类快得多,为什么我们总觉得它反应迟钝? 作者认为根源在于一个僵化的“ReAct 循环”:观察 → 思考 → 行动。 现在的 Agent 都是这个死循环: 1. 观察(听):必须等你把话说完,看到句号了,它才开始下一步。 2. 思考:开始处理你的话,进行推理。 3. 行动(说):把思考完的结果一口气说出来。 但人类根本不是这样工作的! 人类是“事件驱动”的,我们的“听、想、说”是交错进行的 (interleaved): - 边听边想:你刚说开头,我就开始思考和预测你后面要说什么了。等你把话说完,我可能已经想好答案了。 - 边想边说:如果我没想好,我会先说点“嗯……”、“让我想想啊……”这样的“填充词”,在说这些话的同时,我的大脑在高速进行下一步思考。 人类充分利用了所有“间隙”在思考,所以交互体验才如此流畅。 未来的 Agent 必须抛弃僵化的 ReAct 循环,转向这种“边听边想边说”的事件驱动架构。这对于语音助手、机器人、甚至 AI 帮你打游戏都至关重要。 对于这点我觉得虽然“ReAct 循环”,但是实现起来是最简单直接的,作者所说的那种思路看起来很好,但真要实施当前技术未必做的到。 当然很多事情还是得要加上时间维度,有时候并不能用现在的眼光来看这些问题。 至少当前 AI Agent 存在的问题是客观存在的: - 一个真正的 Agent,其核心价值不在于它“知道多少”,而在于它“能学多快”。 - Agent 必须要有持续学习的能力,能从丰富的“观察”中学习世界模型 - “ReAct 循环”很慢,Agent 也应该想人一样能具有“边听边想边说”的实时架构
Y11
2个月前
在未来十年,想要快速成长、抓住机遇,最核心的能力或许不是你已有的知识储备,而是持续学习的能力。 就像在快速变化的森林里穿行,跑得快不如看得清、学得快,能不断适应新环境的人,才能走得更远。 首先,得找到自己的“学习密码”——也就是适合自己的学习方式。 有人喜欢边听边学,开车时听书、看纪录片能记住更多;有人看文字更专注,书本和文章能让他们理清逻辑;还有人动手做过一遍,才会真正理解,比如学编程时写几行代码,比单纯看教程更有效。 就像不同的食材要不同的烹饪方法,学习也要找到最适合自己的“火候”,这样才能把知识“消化”得更好。 其次,要学会“借工具”。 现在的AI就像一个贴心的学习助手,它能把复杂的知识变成你喜欢的形式。 比如一本厚厚的专业书,你不喜欢看文字,AI可以帮你转换成音频,让你在通勤时“听”懂;如果是历史知识,它能做成互动问答,像玩游戏一样帮你记住重要的时间和事件;如果是技能类知识,比如怎么用新软件,AI还能生成步骤清晰的操作指南,连截图和动画都有。善用这些工具,就像给学习装上“加速器”,让知识以更轻松的方式进入你的大脑。 但光“学”还不够,关键是“用”。就像学游泳,光看教程、在岸上比划,永远也游不起来。学了新东西,要立刻找机会用起来:学了沟通技巧,就试着在团队会议上更清晰地表达;学了时间管理方法,就马上调整自己的日程表。哪怕只是在小事上用一次,比如用新学的方法整理办公桌,也能帮你加深理解,发现哪里没掌握好,再回去针对性地学。 最后,学习是个“循环”,不是一次性的事。今天学会的东西,过一周可能就忘了大半,这很正常。所以要不断重复:看完一个知识点,过几天回顾一遍;用了新方法遇到问题,再查资料解决;遇到新挑战时,想想之前学的哪些知识能用上。就像种一棵树,需要浇水、施肥、修剪,学习也是这样,不断重复、不断实践,才能让知识真正长在自己身上,成为能力。 说到底,学习能力不是天生的,而是练出来的。找到自己的节奏,用好身边的工具,大胆去尝试、去应用,然后在这个循环里不断迭代。当你能比别人学得更快、用得更活,机会自然会向你走来。未来十年,谁能把学习变成习惯,谁就能在变化中始终站在前面。
Morris
4个月前
一个高主观能动性的人,有那些特质?第一,就是从小就有反常的兴趣爱好,比如说别人都爱打篮球,在泡妞,然后,你就喜欢研究昆虫,那小朋友。那些其他小朋友通常都是最容易随大流的,如果你从小就这么有主见,长大肯定也很有想法。第二,如果你每次跟这个人聊完天,你都会被他的热情能量感染到,那这个人的执行力肯定也差不到哪里去。第三,是你琢摸不透他们的心思,比如说,喜欢研究战争史的销售,喜欢读尼采的美妆博主,或者说喜欢读诗的这个拳击手,我就想到了李小龙,他一方面的打打杀杀感觉很暴力,但是反手给你来一句什么Be-like-water,my-friend(要像水一样,适应环境、柔中带刚、无形无相。),这个组合就非常的性感,第四,或者说离开他们原生地的人,距离越远越好。比如说从什么云南冲到北京去创业,或者是拖家带口从中国搬到美国。一个没有主见,没有执行力的人,就不会愿意在一个新的地方从零开始。第五,老是给你发一些小众内容的人,因为大部分人只会关注点赞高、评论高的东西,那只有高能动性的人,才会关注内容质量本身,而不是靠着什么别人的想法,别人的推荐来决定一个东西的好坏。第六,老在你面前挑你的刺,但是在背后,经常夸你。第七,主动放弃了某一个高大上的身份,或者说某一个高大上的职位,去追求自己目标的人。第八,不会因为所有人都默认某件东西,就不去验证它。第九,学东西很快,而且不停的学。第十,在回答问题之前,会先挑战问题问的合不合理。如同马斯克,他的工程师都在纠结一个功能怎么做,老马一上来说我们为什么要这个功能,能不能不做?所有工程师都傻了,说从来没有想过。无论这个人智商、脑力怎么样,长相怎么样,资源怎么样,只要他在主观能动性这一栏,点数是拉满的,结局基本都差不到哪里去。平时大家看人可能说,有没有钱,性格怎么样,怎么样,我觉得可以把主观能动性这个维度加进去。