时政
财经
科技
登录
#reasoning
关注
马东锡 NLP 🇸🇪
1个月前
「RLVR, Reasoning」 Spurious Rewards: Rethinking Training Signals in RLVR 当随意的奖励信号仍可以大幅提升模型性能,就得重新思考:到底是RL在学习,还是在放大某种“先验”行为。 "RLVR must somehow be surfacing useful reasoning representations learned during pretraining." 预定本周最佳论文! 对 Qwen2.5-Math 系列,作者使用与正确性几乎无关、甚至负相关的“随意奖励”也能把 MATH-500 的准确率大幅提升。 读完论文,觉得精彩,更觉得作者非常 “蓄意” 😆。 “蓄意”地挑选“先验”模型和“非先验”模型: - 选 Qwen 2.5-Math(自带大量 Python 链式推理) - 选 Llama 3 / OLMo 2(通用模型、少或劣代码) “蓄意”地验证并凸显两件事: - RLVR 像放大器:在 Qwen 上,即便奖励随机或错误,GRPO 的裁剪也会“放大”如 coding 这一高概率、 高正确率的行为,准确率随之增长。 - 先验缺失就失效:Llama/OLMo 没有或只会 Bad-Code,被放大的只是噪声,成绩持平或下降。 严谨的实验支持了 RLVR 主要在 “放大” 预训练潜能而非教授新能力的观点。 作者同样建议跨模型、跨任务验证与深入理解模型先验,不要只盯着单一模型做漂亮数值提升的工作,因为那可能根本没有意义。 那些围绕Qwen模型,精心构造奖励函数的研究员们,瑟瑟发抖中。
#RLVR
#SpuriousRewards
#DeepLearning
#reasoning
#TrainingSignals
#MachineLearning
#ModelPerformance
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
「DeepSeek, Reasoning」论文 DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition 用"sorry"做占位符,sorry,除了硬核,无法可说。 DeepSeek这篇在reasoning的追求上,到了一个让普通老百姓不能理解的程度。 DeepSeek 的一系列推理模型,已经用test time scaling的方法,证明它有做奥赛数学题的reasoning能力。 但这不够,这篇论文不要已经work的非正式性自然语言推理过程,一定要formal theorem proving,要用数学正式表达的形式化推理,。怎么评价呢,“挺卷的反正就” 。 方法上,DeepSeek把“非正式分解 + 递归求解 + 强化学习”整合为一条pipeline: - DeepSeek-V3 先用自然语言写出解题思路,同时把每一步翻译成 Lean 子目标(以 sorry 结尾)。 - 一个 7B 参数的 prover 模型递归地填补这些 sorry,得到完整 Lean 证明。 - 拼接后的“CoT + 正式证明”作为冷启动数据,再用 RL 微调,显式奖励"证明结构与分解保持一致"。 看完论文,一头雾水,为啥用sorry做占字符? 问了一下专门做数学研究的朋友,才知道,微软的Lean是专门用来做交互式地构造严谨证明,sorry就是Lean的本身对数学推导的占字符。😱 读完其他优秀的论文,我总会感叹exciting,amazing。 这篇只有,无法可说,sorry....
#DeepSeek
#reasoning
#Formal Mathematical Reasoning
#Reinforcement Learning
#Subgoal Decomposition
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
「Agent, RAG, Reasoning」论文 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning ReSearch,充满了 ReAct 的影子。它教会模型“何时求助于世界”;但局限在于,ReSearch 只能依赖一种工具。 作者提出了一种创新的框架,名为 ReSearch,旨在通过强化学习(RL)训练 LLM 在推理过程中有效地反复利用 search API 完成任务。 从任务形式上,它解决的是增强LLM+ RAG的问题,但并不同于基于 embedding 的单轮相似度检索方法。 它关注的是多次 query、反复调用 search API 来完成信息查询任务。 并不同于基于embedding去单次算相似度的方法,它解决的是多次query,反复调用search API完成外部信息查询的问题。 而反复调用 API,涉及推理能力去决策调用的时机,以及生成调用的参数 —— 这是一个典型的 agent + function calling 场景。 ReSearch目标将这种search的reasoning能力通过RL学到。 具体来说,ReSearch 采用了专门为搜索功能设计的训练模版: <think>...</think>:表示模型的思考过程; <search>...</search>:表示模型发起的搜索查询; <result>...</result>:表示搜索引擎返回的结果; <answer>...</answer>:表示模型给出的最终答案。 特别地,ReSearch 的奖励函数不是仅仅基于答案对错,而是采用 rule-based 的组合机制:基于答案的 F1 相似度 + 输出格式是否符合模板,以此优化 policy,微调语言模型参数。 此时不免再次提及 ReAct:ReSearch 充满了 ReAct 的循环影子——: Reasoning:模型的思考过程; Action:模型发起的调用; Observation:工具返回的反馈。 ReAct 是神作,它以 verbal reasoning (人话)的方式,将原本充满数学公式的 RL 概念转化为语言链式推理,让 LLM 学会如何使用工具,优雅而简洁。 一些思考: ReSearch 以及前几天分享的 ReTool 是非常类似的工作,它们都通过强化学习微调,将使用工具的能力内化于语言模型中,增强工具调用的鲁棒性。 但它们的局限性也非常明显:ReSearch 和 ReTool 都只支持一种工具 —— search API 和 code interpreter。 而 ReAct,通过 Prompt Engineering,就可以灵活调用多个外部工具。 ReSearch 和 ReTool 的 RL 框架是为“单工具、二选一调度”设计的。如果强行扩展为多工具,训练信号将更加稀疏、credit assignment 更加困难,其策略网络、reward assignment、以及 rollout 表达能力都需要重新设计。 我们距离真正原生具备多轮、多工具能力的通用 Agent,还有一段距离。
#agent
#RAG
#reasoning
#Research
#React
#强化学习
#大模型
#Reinforcement Learning
#工具使用
#创新框架
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
「LLM, Reasoning」论文: (How) Do reasoning models reason? “真正的智能,是让模型在生成时就做出正确选择,而不是事后去验证哪个选项是对的。” 作者Subbarao Kambhampati,我不完全同意他,但我很喜欢他。2024年ACL Keynote,他批评当前对 Chain of Thought 的信仰如同宗教。——我们喜欢看到推理的样子,但并未真正验证推理的实质。 这篇论文,简直就是把当前 LLM 推理潮流一锅端,按住OpenAI o1 和 DeepSeek R1 提出了两个灵魂拷问: 1: Large Reasoning Model 是在推理还是在检索? 作者认为,LRM 并非真正“推理”,它们的行为更像经过训练强化的“近似检索”系统。 所谓“推理”,往往只是模型通过被筛选过的训练样本“生成看起来像推理的输出”。 如果模型生成的候选解中压根就没有一个是对的,也就无法进行强化训练。 这意味着 LRM 的“推理”质量依赖于它是否能撞上一个正确答案。 2: Chain of Thought 是否跟“思考相关”? 作者认为,CoT,(如step-by-step 的文字、公式、甚至“wait...”、“aha moment”这类表述)并不能证明模型真的在“思考”,它们很可能只是模仿人类风格的产物——大型模仿模型(Large Mumbling Models, LMMs)。😂 例如,CoT可以胡说八道但仍“撞对”答案, 模型通过 RL 训练输出的CoT只要能让最终答案更准确,哪怕是乱码也无所吊谓。 最后,此片论文同样是对test time scaling的犀利审视,test time scaling本质是把原本在“测试时”才能验证的东西,提前“编译”进了模型的生成过程中。 换句话说,模型不是学会了推理,而是学会了如何在多次尝试中更容易猜对答案。这跟真正的智能背道而驰。 按照作者的思路,当下post training的套路如下: - 测试阶段:拼命尝试多个答案 - 筛选阶段:用外部验证器选出对的那个 - 训练阶段:把这套套路“硬塞回生成器”,形成“像在思考的样子” 所以它不是真的学会了推理,而是学会了:如何让自己看起来像在推理,并增加猜中率。 Intelligence is the ability to shift the test part of generate-and-test into the generate part. inspriing!
#LLM
#reasoning
#智能
#模型
#Subbarao Kambhampati
#ACL
#Chain of Thought
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
「LLM, Agent, RL的关系」 在LLM的语境下,Agent是能理解问题,自主进行推理(Reasoning),并采取行动的系统。你可以把它想象成一个非常聪明的助手,当你提出复杂问题时,它不会立即给出答案,而是会在内心进行推理和规划(Planning),再给出最终决定。 如果我们回顾prompt engineering中提高LLM Reasoning能力的方法,如Self-Consistency、Tree of Thoughts 和 ReAct,本质上都体现了强化学习(RL)中常见的规划思想: Tree of Thoughts:如同下棋时,你脑海中会形成一个思考树,一步步推演未来可能的局面,从而找到最优解。这与RL中的树搜索(Tree Search)方法完全对应,体现了明显的模型化规划(Model-based Planning)特征。 ReAct(Reasoning+Acting,推理加行动):类似于你边思考边行动,不断尝试,再根据反馈调整下一步的计划。这种推理与行动的交替模式与RL中Agent持续地感知状态(Observing)、制定策略(Policy)、采取行动(Acting)并从环境中获得反馈(Feedback)非常类似。 为什么增强LLM的Reasoning通常要使用RL方法? 尽管LLM本身已经具备强大的知识和生成能力,但它们本质上是基于“下一个词预测”的机制(Next-Word Prediction),缺乏深度的Planning能力和对未来结果的有效预测。这就像一个聪明但缺乏系统训练的人,虽然懂得很多知识,但在面对复杂决策时容易陷入短视和错误。 RL方法的加入,就像给LLM提供了一种“内心世界模型”(Internal World Model),帮助模型进行更好的内部规划: RL能帮助LLM学会评估和预测不同推理路径的可能结果,从而选择更优的路径,恰如DeepSeek R1, Kimi, o1的方法。 立一个FLAG, 把这些RL方法一个个用人话讲明白。
#LLM
#agent
#RL
#reasoning
#planning
#Prompt Engineering
#AI助手
#自主推理
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
更强的reasoning, 更好的Agent 论文分享: Thinking Machines: A Survey of LLM based Reasoning Strategies 在我们开发Agent的项目的时候,需要 更好的LLM reasoning的能力,以获得更高的任务完成准确率。 那么有哪些方法可以增强LLM的reasoning能力呢? 沿着之前我分享的Testing time scaling的轨迹,这篇论文的部分内容对于增强Large Reasoning Model的策略非常有参考价值: 反馈引导优化(Feedback Guided Improvement) 步骤反馈(Step-Feedback, SF):逐步评分,仅保留最佳路径(如Beam Search/MCTS) 结果反馈(Outcome-Feedback, OF):生成多条结果整体评分,择优输出 计算资源扩展(Scaling Test-Time Computation) 提高单词级计算(Scaling Token-Level Compute):如best-of-N sampling 自反馈优化(Self-Feedback):模型自我优化,无需再训练(非Self-Teaching)
#reasoning
#LLM
#agent
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞