什么是 Grokking?(原意来自俚语:通过神入作用而理解) “Grokking”是 OpenAI 在 2022 年提出的LLM的一个重要现象,指的是: 当模型在训练初期靠死记硬背(memorization)取得低训练损失,但测试误差很高;然后在极长时间训练后,模型突然学会了泛化结构,测试集准确率急剧上升。 这种现象最初在小模型上观察到,如:一个小 transformer 学习一个 mod - x - news.news