#多级记忆

indigo
1天前
就像 Demis 所说的,我们距离人类级别的通用智能还需要至少两个范式突破!最近 X 上备受关注的来自 Google Research 的论文「Nested Learning」也许能带来一些突破的希望,团队用 HOPE 作为验证架构的名字,足以显示其信心,它会不会是下一个 Transformer 呢?竟然又出自于 Google … 现在 LLM 最大问题,就是“灾难性遗忘”。虽然它们功能强⼤,但本质上是静态的,在预训练后就停⽌学习,⽆法持续获取新知识。这种状态类似于“顺⾏性遗忘症”:模型拥有⻓期记忆(预训练知识)和短暂的⼯作记忆(上下⽂窗⼝),但两者之间的桥梁是 断裂的, ⽆法形成新的持久记忆。简单地堆叠更多层(增加深度)并不能解决这个根本 问题。 真正的深度不是空间的“高”,而是时间的“深”。Nested Learning (NL) 认为,模型不应该是一个静态的千层饼,而应该是一组嵌套的齿轮系统 。 - 有些齿轮转得慢(长期记忆/预训练知识) - 有些齿轮转得快(短期适应/上下文学习) - 真正的智能,是不同转速的齿轮在同时咬合、运行 我们的大脑,是在多时间尺度上进行“持续学习”的。神经元结构的⼀致性使得⼤脑可以灵活地重组⾃身;⼤脑不依赖于单⼀的中央时钟,而是用不同的神经回路以不同的频率运作(如脑电波),实现快速整合与⻓期巩固的平衡。 深度学习其实是嵌套学习的“扁平化”投影,就像低维是高纬的平面化投影一样。在 NL 框架下,每个“层级”都有其⾃身的“上下⽂流”和“更新频率”,这使得所有内部学习过程都变得透明且可⽤数学语⾔描述。这样,模型不需要让所有参数都用同一个速度更新,让浅层参数快速适应(像海马体处理新记忆),而让深层参数缓慢沉淀(像大脑皮层存储旧知识)。 优化器(Optimizer)本质上就是一种记忆系统。这是论文中最具颠覆性的洞见,假如你把梯度下降看作是一个“正在学习如何遗忘和记忆”的过程呢? - SGD 是一个初级记忆体,它试图把数据映射到“惊讶”(Error / Surprise)上; - Momentum(动量)是一个更高阶的记忆体,它记住了过去梯度的方向; 整个神经网络,从优化算法到注意力机制,本质上都是一个个嵌套的、试图压缩信息的循环。并没有所谓的“架构” vs “算法”,它们是一体两面。 — 现在,团队从第⼀性原理出发,设计⼀个完全拥抱嵌套学习范式的模型架构 - HOPE,它不是简单的 Transformer,更像一个能自我进化的系统: - Self-Modifying Titans(自我修改的泰坦): 它能学习如何修改自己的更新算法,这就像一个人不仅在学习知识,还在学习“如何学习”; - Continuum Memory(连续谱记忆): 抛弃非黑即白的“长/短记忆”二分法,建立一个多级变速的记忆齿轮箱; HOPE 不仅是⼀个理论构造,它在实践中也展现了 SOTA 性能,在 1.3B 参数规模下优于 Transformer / RetNet / Titans,尤其在语言建模和常识推理上。 我觉得这篇论文的名字取得很有深度,很多人把它并比作“Attention is All You Need V2”。传统深度学习的“深度”只是计算的⼀维视⻆,这是过去的幻象;现在的现实是:嵌套学习揭示了第⼆个维度 —— 拥有不同更新频率的“学习层级”。 这个新视⻆不仅帮助我们更好地理解现有模型,更重要的是,它指导我们设计出像 HOPE 这样更强⼤、 具备持续学习能⼒的新架构。