#GRPO

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

7个月前

Difficulty Adaptive Rollout Sampling (DARS) 据说可以解决DeepSeek的GRPO的偏差累积问题？上一个号称改进GRPO训练稳定性都是qwen的GSPO。 DeepSeek 的R2会是什么创新呢？

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DARS #DeepSeek #GRPO #偏差累积 #R2

karminski-牙医

9个月前

Unsloth 刚刚发布了一个强化学习小教程教程从吃豆人游戏触发，然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练，是个不错的入门小文章。地址:

#强化学习 #吃豆人 #RLHF #PPO #GRPO #教程 #入门

1年前

DeepSeek R1的论文非常值得仔细看，粗略扫了下，他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。同时这也证明领域级思考模型的训练目前的技术完全可以复现，只需要想办法合成对应的cot训练数据。明天仔细研读下，并着手在实际的领域中尝试落地。

#DeepSeek #思考模型 #GRPO #Reward Model #RL #PRM #MCTS #cot训练