时政
财经
科技
登录
#MDP
关注
马东锡 NLP 🇸🇪
3个月前
Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。 但RL专业性非常强,去参加ML的会议时,专门做RL的研究员都现场拿着笔纸推算数学公式,掌握起来学习难度较高。 分享一本RL的入门教材,从RL基础MDP,PPO,直到跟LLM结合,如RLHF,都有讲解,深入浅出。 Reinforcement Learning: An Overview:
#强化学习
#大型语言模型
#RLHF
#PPO
#MDP
#Reinforcement Learning
#LLM
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞