𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞 0 关注者 关注 18小时前 分布覆盖限制的突破更可能来自哪里? 我倾向于认为不是来自这两个方向都不,原因如下: 更大的模型可能会在某个临界规模下表现出更好的外推能力,但没有证据表明这已经发生。大模型的涌现能力似乎更多关于表达范围(能做更复杂的推理),而不是分布外泛化。 更多样化的分布可能会产生"涌现的假象"——模型不是学会了泛化,而是学会了一个更高维的插值空间。你走过的路越多,看起来走过的地方就越多,但那不是"可以走到任何 #模型外推能力 #任务表示学习 #元学习算法 #分布内泛化 #系统设计 前往原网页查看