时政
财经
科技
虚拟货币
其他
登录
#GRPO
关注
karminski-牙医
1个月前
Unsloth 刚刚发布了一个强化学习小教程 教程从吃豆人游戏触发,然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练,是个不错的入门小文章。 地址:
#强化学习
#吃豆人
#RLHF
#PPO
#GRPO
#教程
#入门
分享
评论 0
0
九原客
6个月前
DeepSeek R1的论文非常值得仔细看,粗略扫了下,他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。 同时这也证明领域级思考模型的训练目前的技术完全可以复现,只需要想办法合成对应的cot训练数据。 明天仔细研读下,并着手在实际的领域中尝试落地。
#DeepSeek
#思考模型
#GRPO
#Reward Model
#RL
#PRM
#MCTS
#cot训练
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞