时政
财经
科技
登录
#RLHF
关注
karminski-牙医
2周前
Unsloth 刚刚发布了一个强化学习小教程 教程从吃豆人游戏触发,然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练,是个不错的入门小文章。 地址:
#强化学习
#吃豆人
#RLHF
#PPO
#GRPO
#教程
#入门
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。 但RL专业性非常强,去参加ML的会议时,专门做RL的研究员都现场拿着笔纸推算数学公式,掌握起来学习难度较高。 分享一本RL的入门教材,从RL基础MDP,PPO,直到跟LLM结合,如RLHF,都有讲解,深入浅出。 Reinforcement Learning: An Overview:
#强化学习
#大型语言模型
#RLHF
#PPO
#MDP
#Reinforcement Learning
#LLM
分享
评论 0
0
JundeWu
5个月前
我之前说OpenAI>Deepseek,所以追赶OpenAI的临门一脚到底差在哪里?先说结论,我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback),也就是人类反馈 Deepseek-R1这次的训练,仅利用了rule-based outcome reward,也就是数学题答案对错/测代码能不能跑通,训练出来了超强的逻辑,在math/code打平了O1。但是正如他们论文中也有提及,这样的训练是有损于模型表达的,所以经常能看到Deepseek的回答是有内在逻辑的,但是缺乏对逻辑之间转折的解释,以及观点之间细粒度的桥接。 另外也不是问题都需要推理,很多领域还需要的是经验性的判断,约定成俗的规则,抽象概念的理解,道德价值观的考量,模型在这些问题强行推理就会答偏。 能不能在开放问题上得到符合人类标准的答案取决于RLHF,简单来说就是让人给模型的答案打分,然后训练模型在人类那里得到更高的分数。 这里面算法能带来的提升很有限,主要是人力资源的较量:当模型越聪明越专业,我们就一定需要更加专业的领域专家来进行打分,毕竟一小时5刀的外包标注员是不可能对人文,艺术,法律,医学,生物等等专业领域的回答正确打分的---AI本身的专业度已经远远超过普通人。当然要雇佣更高级的专家进行标注的成本也是很高的。 openai对于RLHF有很深的理解,半年前就已经开始已经招聘相关领域博士来对模型回答进行标注。我们现在看到deepseek通过R1的训练已经达到o1的逻辑水平,差的,可能就在于人类专家对齐 所以,合理推测,类deepseek推理训练+博士级别的人类反馈,可能就是openai的所有秘密
#OpenAI
#DeepSeek
#RLHF
#Reinforcement Learning from Human Feedback
#rule-based outcome reward
#逻辑能力
#math/c
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞