#MDP

马东锡 NLP 🇸🇪

1年前

Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。但RL专业性非常强，去参加ML的会议时，专门做RL的研究员都现场拿着笔纸推算数学公式，掌握起来学习难度较高。分享一本RL的入门教材，从RL基础MDP，PPO，直到跟LLM结合，如RLHF，都有讲解，深入浅出。 Reinforcement Learning: An Overview：

#强化学习 #大型语言模型 #RLHF #PPO #MDP #Reinforcement Learning #LLM