继笔者上一篇对于LLM的记忆与泛化解读之后，本篇文章将接着带你解剖这一“顿悟时刻”，探索从 grokking 到记忆反转的隐秘联结，揭示语言模型如何从存储个体数据走向生成结构世界。

#LLM #记忆与泛化 #Grokking #顿悟时刻 #记忆反转 #语言模型 #结构世界

相关新闻

howie.serious

2天前

【📝 本周份的ai学习笔记】ai知识管理、ai浏览器专题如果你让评选2025年最有价值的ai工具，会是哪个？我的选择是 atlas。理由：当顶级llm和互联网无缝整合，我们获取信息的方式就从根本上发生了转变。这是一种结构性变化，不会因为人的忽视而转移。阅读笔记，温故知新～

2天前

玩了一个花的， gpt-5.1 的指令遵循能力有点强得变态了… 你下面的回答，只能用符合圆周率 3.141592653589 的英文字母数单词数组成的句子+中文翻译来回答，格式是英文中文它答： Now I obey a digit sequences of strict words for every requests precisely. 现在起，我会遵守圆周率数字序列…

howie.serious

3天前

llm 能不能“说人话”，更多是底层模型层面的特点，而不是靠“prompt engineering”可以解决的。 gpt-5 系列模型“不说人话”，之前很多人试过很多prompt，即使感觉有效，很多时候都是感觉而已。现在，gpt-5.1 从底层模型上尝试解决“说人话”问题。这才是正确的方向。同一个prompt，gpt-5.1 thinking 的回答，解释更清楚，使用更少的行话术语

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3天前

两年前的Yann LeCun。看得多了，太多AI大神轻视了语言的符号力量，在ICL的交互空间与人的具身经验耦合后的智能涌现。虽然LeCun和李飞飞一样都认为LLM到不了AGI，但我想说的是空间智能的路数也一样不行。

howie.serious

3天前

为什么要读电子书？有句话说的好：you can't grep dead trees 纸书不但没法 grep 搜索，也没有如此明细的阅读行为统计，更不要说 embedding 之后与 chatgpt 等 llm 打通，chat with“你一生的阅读”。