马东锡 NLP 🇸🇪 0 关注者 关注 7个月前 「Agent, Reasoning」论文: Generative Verifiers: Reward Modeling as Next-Token Prediction 拟人化的 reward model,超越机械的打分,一个非常聪明的方法。 之前的分享中提到过,在 Large Reasoning Model 时代,RL 的方法几乎都是 Reinforcement Learning with #Generative Verifiers #Reward Modeling #Next-Token Prediction #Large Reasoning Model #Reinforcement Learning 前往原网页查看