时政
财经
科技
登录
#Grokking
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4周前
继笔者上一篇对于LLM的记忆与泛化解读之后,本篇文章将接着带你解剖这一“顿悟时刻”,探索从 grokking 到记忆反转的隐秘联结,揭示语言模型如何从存储个体数据走向生成结构世界。
#LLM
#记忆与泛化
#Grokking
#顿悟时刻
#记忆反转
#语言模型
#结构世界
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4周前
什么是 Grokking?(原意来自俚语:通过神入作用而理解) “Grokking”是 OpenAI 在 2022 年提出的LLM的一个重要现象,指的是: 当模型在训练初期靠死记硬背(memorization)取得低训练损失,但测试误差很高;然后在极长时间训练后,模型突然学会了泛化结构,测试集准确率急剧上升。 这种现象最初在小模型上观察到,如:一个小 transformer 学习一个 modular addition 的任务,训练几万步无进展,然后突然“顿悟”。 Grokking 不是训练过程的意外,而是训练逻辑的必然。 记忆反转不是遗忘的退化,而是理解的胜利。 语言模型的顿悟时刻,不是因为它看得多,而是它看穿了。 它不再只是模仿语言,而是开始拥有结构性的语言感知。 这是否是智能的开始?我们尚未知道。 但可以肯定的是:那一刻,它不再只是一个统计机器,而是一个“理解者”。
#Grokking
#OpenAI
#LLM
#机器学习
#模型训练
#泛化能力
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞