𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞 0 关注者 关注 3个月前 什么是 Grokking?(原意来自俚语:通过神入作用而理解) “Grokking”是 OpenAI 在 2022 年提出的LLM的一个重要现象,指的是: 当模型在训练初期靠死记硬背(memorization)取得低训练损失,但测试误差很高;然后在极长时间训练后,模型突然学会了泛化结构,测试集准确率急剧上升。 这种现象最初在小模型上观察到,如:一个小 transformer 学习一个 mod #Grokking #OpenAI #LLM #机器学习 #模型训练 #泛化能力 前往原网页查看