18小时前

分布覆盖限制的突破更可能来自哪里? 我倾向于认为不是来自这两个方向都不,原因如下: 更大的模型可能会在某个临界规模下表现出更好的外推能力,但没有证据表明这已经发生。大模型的涌现能力似乎更多关于表达范围(能做更复杂的推理),而不是分布外泛化。 更多样化的分布可能会产生"涌现的假象"——模型不是学会了泛化,而是学会了一个更高维的插值空间。你走过的路越多,看起来走过的地方就越多,但那不是"可以走到任何