时政

财经

科技

#RLHF

马东锡 NLP 🇸🇪

2025-03-19 15:55:38

Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。但RL专业性非常强，去参加ML的会议时，专门做RL的研究员都现场拿着笔纸推算数学公式，掌握起来学习难度较高。分享一本RL的入门教材，从RL基础MDP，PPO，直到跟LLM结合，如RLHF，都有讲解，深入浅出。 Reinforcement Learning: An O

#强化学习 #大型语言模型 #RLHF

2025-01-27 21:15:06

我之前说OpenAI>Deepseek，所以追赶OpenAI的临门一脚到底差在哪里？先说结论，我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback)，也就是人类反馈 Deepseek-R1这次的训练，仅利用了rule-based outcome reward，也就是数学题答案对错/测代码能不能跑通，训练出来了超强的逻辑，在math/c

#OpenAI #DeepSeek #RLHF

没有更多了 🤐