马东锡 NLP 🇸🇪 0 关注者 关注 5个月前 「LLM x RL」DeepSeek 最新论文:Inference-Time Scaling for Generalist Reward Modeling 在 RL 中,Reward Modeling(RM)是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分,从而调整 LLM 的 policy,使其更符合 RM 设定的要求,比如更强的 reasoning 能力。 针对特定任务( #LLM #RL #RewardModeling #InferenceTimeScaling #DeepSeek #PolicyAdjustment #ReasoningAbility #AI #MachineLearning 前往原网页查看