4周前

ICL不仅在分布内有效,也在分布外的few-shot prompting中有效。 ICL本质上是模型在最小化next-token预测损失时的必然副产品 当模型看到更多上下文(context)时,预测的不确定性会降低 这种"上下文依赖的损失降低"就是ICL的本质 Pretraining阶段:模型学习数据的统计结构(相关性、模式等) Test time阶段:当测试数据在分布内(in-distrib