#奖励策略

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

预训练应该应该增加推理语料的多样性，然后SFT阶段使用一小套高质量数据监督微调，然后用奖励稳定下来。预训练阶段逼着LLM自己学习内化，然后用sft高质量数据强化，最后用reward策略优化固化。 ---- Paper – arxiv. org/abs/2510.03264 Paper Title: "Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data"

#预训练 #推理语料 #SFT #奖励策略 #LLM