#RLHF

4个月前

跑了几个深度研究的报告，分享给大家一起学习 LLM 预训练技术报告：深入浅出解读 SFT： RLHF 深度技术报告： LLM幻觉问题深度剖析与优化策略：

#LLM #预训练 #SFT #RLHF #幻觉问题

4个月前

愿你的 regularizer 足够强，以防你被 RLHF 训练成 xxx🤣 （xxx 可替换为各种被外部反馈强化扭曲异化的人与现象，例如“讨好型人格”，例如不说人话故弄玄虚或每天炸裂追求流量无下限的自媒体…） --- 人肉做翻译，确实有趣。 andrej karpathy 的这句话，过了这么久了，也还是觉得很难翻译。你会怎么翻译？怎么费曼这个 idea？

#RLHF #翻译 #Andrej Karpathy #费曼 #自媒体

karminski-牙医

6个月前

Unsloth 刚刚发布了一个强化学习小教程教程从吃豆人游戏触发，然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练，是个不错的入门小文章。地址:

#强化学习 #吃豆人 #RLHF #PPO #GRPO #教程 #入门

马东锡 NLP 🇸🇪

9个月前

Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。但RL专业性非常强，去参加ML的会议时，专门做RL的研究员都现场拿着笔纸推算数学公式，掌握起来学习难度较高。分享一本RL的入门教材，从RL基础MDP，PPO，直到跟LLM结合，如RLHF，都有讲解，深入浅出。 Reinforcement Learning: An Overview：

#强化学习 #大型语言模型 #RLHF #PPO #MDP #Reinforcement Learning #LLM

11个月前

我之前说OpenAI>Deepseek，所以追赶OpenAI的临门一脚到底差在哪里？先说结论，我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback)，也就是人类反馈 Deepseek-R1这次的训练，仅利用了rule-based outcome reward，也就是数学题答案对错/测代码能不能跑通，训练出来了超强的逻辑，在math/code打平了O1。但是正如他们论文中也有提及，这样的训练是有损于模型表达的，所以经常能看到Deepseek的回答是有内在逻辑的，但是缺乏对逻辑之间转折的解释，以及观点之间细粒度的桥接。另外也不是问题都需要推理，很多领域还需要的是经验性的判断，约定成俗的规则，抽象概念的理解，道德价值观的考量，模型在这些问题强行推理就会答偏。能不能在开放问题上得到符合人类标准的答案取决于RLHF，简单来说就是让人给模型的答案打分，然后训练模型在人类那里得到更高的分数。这里面算法能带来的提升很有限，主要是人力资源的较量：当模型越聪明越专业，我们就一定需要更加专业的领域专家来进行打分，毕竟一小时5刀的外包标注员是不可能对人文，艺术，法律，医学，生物等等专业领域的回答正确打分的---AI本身的专业度已经远远超过普通人。当然要雇佣更高级的专家进行标注的成本也是很高的。 openai对于RLHF有很深的理解，半年前就已经开始已经招聘相关领域博士来对模型回答进行标注。我们现在看到deepseek通过R1的训练已经达到o1的逻辑水平，差的，可能就在于人类专家对齐所以，合理推测，类deepseek推理训练+博士级别的人类反馈，可能就是openai的所有秘密

#OpenAI #DeepSeek #RLHF #Reinforcement Learning from Human Feedback #rule-based outcome reward #逻辑能力 #math/c