时政
财经
科技
虚拟货币
其他
登录
#KL散度
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3周前
arXiv预印本2509.04259,探讨了在线强化学习(RL)在fine-tuning基础模型时为什么比监督微调(SFT)遗忘更少的问题 RL’s Razor:在所有解决新任务的策略中,RL偏好KL散度(Kullback-Leibler divergence)相对于原始模型最小的解决方案
#在线强化学习
#RL
#fine-tuning
#KL散度
#模型遗忘
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞