时政

财经

科技

#RewardModeling

马东锡 NLP 🇸🇪

2025-04-04 17:33:30

「LLM x RL」DeepSeek 最新论文：Inference-Time Scaling for Generalist Reward Modeling 在 RL 中，Reward Modeling（RM）是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分，从而调整 LLM 的 policy，使其更符合 RM 设定的要求，比如更强的 reasoning 能力。针对特定任务（

#LLM #RL #RewardModeling

没有更多了 🤐