3个月前

什么是 Grokking?(原意来自俚语:通过神入作用而理解) “Grokking”是 OpenAI 在 2022 年提出的LLM的一个重要现象,指的是: 当模型在训练初期靠死记硬背(memorization)取得低训练损失,但测试误差很高;然后在极长时间训练后,模型突然学会了泛化结构,测试集准确率急剧上升。 这种现象最初在小模型上观察到,如:一个小 transformer 学习一个 mod

相关新闻

placeholder

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

6小时前

见所未见,LLM的这种能力来自语言的超模态通感?