时政
财经
科技
虚拟货币
其他
登录
#奖励策略
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
19小时前
预训练应该应该增加推理语料的多样性,然后SFT阶段使用一小套高质量数据监督微调,然后用奖励稳定下来。 预训练阶段逼着LLM自己学习内化,然后用sft高质量数据强化,最后用reward策略优化固化。 ---- Paper – arxiv. org/abs/2510.03264 Paper Title: "Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data"
#预训练
#推理语料
#SFT
#奖励策略
#LLM
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞