「Agent, Reasoning」论文: Generative Verifiers: Reward Modeling as Next-Token Prediction 拟人化的 reward model,超越机械的打分,一个非常聪明的方法。 之前的分享中提到过,在 Large Reasoning Model 时代,RL 的方法几乎都是 Reinforcement Learning with - x - news.news