时政
财经
科技
虚拟货币
其他
登录
#Next-token预测损失
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4周前
ICL不仅在分布内有效,也在分布外的few-shot prompting中有效。 ICL本质上是模型在最小化next-token预测损失时的必然副产品 当模型看到更多上下文(context)时,预测的不确定性会降低 这种"上下文依赖的损失降低"就是ICL的本质 Pretraining阶段:模型学习数据的统计结构(相关性、模式等) Test time阶段:当测试数据在分布内(in-distribution)时,模型自动利用上下文降低预测不确定性——这就是ICL 关联机制:最小化next-token loss本身就要求模型学会利用上下文,因此ICL是"免费"获得的副产品
#ICL
#Few-shot prompting
#Next-token预测损失
#上下文依赖
#分布外泛化
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞