时政
财经
科技
登录
#PPO
关注
karminski-牙医
2周前
Unsloth 刚刚发布了一个强化学习小教程 教程从吃豆人游戏触发,然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练,是个不错的入门小文章。 地址:
#强化学习
#吃豆人
#RLHF
#PPO
#GRPO
#教程
#入门
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。 但RL专业性非常强,去参加ML的会议时,专门做RL的研究员都现场拿着笔纸推算数学公式,掌握起来学习难度较高。 分享一本RL的入门教材,从RL基础MDP,PPO,直到跟LLM结合,如RLHF,都有讲解,深入浅出。 Reinforcement Learning: An Overview:
#强化学习
#大型语言模型
#RLHF
#PPO
#MDP
#Reinforcement Learning
#LLM
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞