𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞 0 关注者 关注 3周前 arXiv预印本2509.04259,探讨了在线强化学习(RL)在fine-tuning基础模型时为什么比监督微调(SFT)遗忘更少的问题 RL’s Razor:在所有解决新任务的策略中,RL偏好KL散度(Kullback-Leibler divergence)相对于原始模型最小的解决方案 #在线强化学习 #RL #fine-tuning #KL散度 #模型遗忘 前往原网页查看