「Agent, Reasoning」论文- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

马东锡 NLP 🇸🇪

0 关注者

3个月前

「Agent, Reasoning」论文： Generative Verifiers: Reward Modeling as Next-Token Prediction 拟人化的 reward model，超越机械的打分，一个非常聪明的方法。之前的分享中提到过，在 Large Reasoning Model 时代，RL 的方法几乎都是 Reinforcement Learning with Human Feedback 的延展。只不过，后来的方法在思路上都是把 human feedback 替换成了 reward model。传统上，reward model 仅仅是一个打分模型，而这篇论文则把 reward model 从简单的打分模型，转变为 next-token 输出, 即超越机械生硬的打分，增添了文字，推理，或者rule。这大大提升了 reward model 的灵活性，因为可以把所有 prompting engineering 的技巧，比如 CoT、对打分的 reasoning 过程等都结合进来并输出，从来辅助打分。从思维方式上来看，这篇论文更倾向于将 RM 作为一个“人”来使用，非常聪明。可见，RM 上的创新将会是Large Reasoning Model重点的方法创新主题，拭目以待。

#Generative Verifiers #Reward Modeling #Next-Token Prediction #Large Reasoning Model #Reinforcement Learning

相关新闻

Ben X

1个月前

很多人嘲笑谷歌，说谷歌在AI时代掉队了。但其实，谷歌是目前为止最领先的AI公司，而且，很可能领先幅度会越来越大。Deepmind最新的Agent，AlphaEvolve，已经非常接近具备自我迭代，持续进步的能力了。这是谷歌过去这么多年在Reinforcement Learning方面的积累从量变到质变的结果，其他公司，也就是马斯克的xAI+Tesla有可能可以追一追，其他公司离得就更远了。接下来，

马东锡 NLP 🇸🇪

3个月前

「DeepSeek, Reasoning」论文 DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition 用"sorry"做占位符，sorry，除了硬核，无法可说。 DeepSeek这篇在reasoning的追求上，到了一个让

马东锡 NLP 🇸🇪

3个月前

「Agent, RAG, Reasoning」论文 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning ReSearch，充满了 ReAct 的影子。它教会模型“何时求助于世界”；但局限在于，ReSearch 只能依赖一种工具。作者提出了一种创新的框架，名为 ReSearch，旨在

马东锡 NLP 🇸🇪

4个月前

LRM论文选读：START: Self-taught Reasoner with Tools 这篇文章介绍了一种构建特定任务、私域Large Reasoning Model的有效方法，主要方法是微调，而且没有使用reinforcement learning，但却有非常类似reinforcement learning with human feedback的特征。关键词有二： Test-ti

马东锡 NLP 🇸🇪

4个月前

Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。但RL专业性非常强，去参加ML的会议时，专门做RL的研究员都现场拿着笔纸推算数学公式，掌握起来学习难度较高。分享一本RL的入门教材，从RL基础MDP，PPO，直到跟LLM结合，如RLHF，都有讲解，深入浅出。 Reinforcement Learning: An O