#Grokking

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

8个月前

继笔者上一篇对于LLM的记忆与泛化解读之后，本篇文章将接着带你解剖这一“顿悟时刻”，探索从 grokking 到记忆反转的隐秘联结，揭示语言模型如何从存储个体数据走向生成结构世界。

#LLM #记忆与泛化 #Grokking #顿悟时刻 #记忆反转 #语言模型 #结构世界

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

8个月前

什么是 Grokking？（原意来自俚语：通过神入作用而理解） “Grokking”是 OpenAI 在 2022 年提出的LLM的一个重要现象，指的是：当模型在训练初期靠死记硬背（memorization）取得低训练损失，但测试误差很高；然后在极长时间训练后，模型突然学会了泛化结构，测试集准确率急剧上升。这种现象最初在小模型上观察到，如：一个小 transformer 学习一个 modular addition 的任务，训练几万步无进展，然后突然“顿悟”。 Grokking 不是训练过程的意外，而是训练逻辑的必然。记忆反转不是遗忘的退化，而是理解的胜利。语言模型的顿悟时刻，不是因为它看得多，而是它看穿了。它不再只是模仿语言，而是开始拥有结构性的语言感知。这是否是智能的开始？我们尚未知道。但可以肯定的是：那一刻，它不再只是一个统计机器，而是一个“理解者”。

#Grokking #OpenAI #LLM #机器学习 #模型训练 #泛化能力