#reasoning

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1周前

reasoning的reasoning — reasoning pattern 越来越多的研究关注LLM的元能力二阶能力了

#LLM #元能力 #二阶能力 #reasoning #研究

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2周前

reasoning as a core capability 约等于 cognitive core？ jakub: we're focusing less on version numbers now. GPT-5 introduces reasoning as a core capability, and we're decoupling product releases from research milestones

OpenAI GPT-5发布引发用户不满，阿尔特曼回应质疑· 142 条信息

#GPT-5 #reasoning #cognitive core #product releases #research milestones

马东锡 NLP 🇸🇪

5个月前

「RLVR, Reasoning」 Spurious Rewards: Rethinking Training Signals in RLVR 当随意的奖励信号仍可以大幅提升模型性能，就得重新思考：到底是RL在学习，还是在放大某种“先验”行为。 "RLVR must somehow be surfacing useful reasoning representations learned during pretraining." 预定本周最佳论文！对 Qwen2.5-Math 系列，作者使用与正确性几乎无关、甚至负相关的“随意奖励”也能把 MATH-500 的准确率大幅提升。读完论文，觉得精彩，更觉得作者非常 “蓄意” 😆。 “蓄意”地挑选“先验”模型和“非先验”模型： - 选 Qwen 2.5-Math（自带大量 Python 链式推理） - 选 Llama 3 / OLMo 2（通用模型、少或劣代码） “蓄意”地验证并凸显两件事： - RLVR 像放大器：在 Qwen 上，即便奖励随机或错误，GRPO 的裁剪也会“放大”如 coding 这一高概率、高正确率的行为，准确率随之增长。 - 先验缺失就失效：Llama/OLMo 没有或只会 Bad-Code，被放大的只是噪声，成绩持平或下降。严谨的实验支持了 RLVR 主要在 “放大” 预训练潜能而非教授新能力的观点。作者同样建议跨模型、跨任务验证与深入理解模型先验，不要只盯着单一模型做漂亮数值提升的工作，因为那可能根本没有意义。那些围绕Qwen模型，精心构造奖励函数的研究员们，瑟瑟发抖中。

#RLVR #SpuriousRewards #DeepLearning #reasoning #TrainingSignals #MachineLearning #ModelPerformance

马东锡 NLP 🇸🇪

6个月前

「DeepSeek, Reasoning」论文 DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition 用"sorry"做占位符，sorry，除了硬核，无法可说。 DeepSeek这篇在reasoning的追求上，到了一个让普通老百姓不能理解的程度。 DeepSeek 的一系列推理模型，已经用test time scaling的方法，证明它有做奥赛数学题的reasoning能力。但这不够，这篇论文不要已经work的非正式性自然语言推理过程，一定要formal theorem proving，要用数学正式表达的形式化推理，。怎么评价呢，“挺卷的反正就” 。方法上，DeepSeek把“非正式分解 + 递归求解 + 强化学习”整合为一条pipeline： - DeepSeek-V3 先用自然语言写出解题思路，同时把每一步翻译成 Lean 子目标（以 sorry 结尾）。 - 一个 7B 参数的 prover 模型递归地填补这些 sorry，得到完整 Lean 证明。 - 拼接后的“CoT + 正式证明”作为冷启动数据，再用 RL 微调，显式奖励"证明结构与分解保持一致"。看完论文，一头雾水，为啥用sorry做占字符？问了一下专门做数学研究的朋友，才知道，微软的Lean是专门用来做交互式地构造严谨证明，sorry就是Lean的本身对数学推导的占字符。😱 读完其他优秀的论文，我总会感叹exciting，amazing。这篇只有，无法可说，sorry....

#DeepSeek #reasoning #Formal Mathematical Reasoning #Reinforcement Learning #Subgoal Decomposition

马东锡 NLP 🇸🇪

6个月前

「Agent, RAG, Reasoning」论文 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning ReSearch，充满了 ReAct 的影子。它教会模型“何时求助于世界”；但局限在于，ReSearch 只能依赖一种工具。作者提出了一种创新的框架，名为 ReSearch，旨在通过强化学习（RL）训练 LLM 在推理过程中有效地反复利用 search API 完成任务。从任务形式上，它解决的是增强LLM+ RAG的问题，但并不同于基于 embedding 的单轮相似度检索方法。它关注的是多次 query、反复调用 search API 来完成信息查询任务。并不同于基于embedding去单次算相似度的方法，它解决的是多次query，反复调用search API完成外部信息查询的问题。而反复调用 API，涉及推理能力去决策调用的时机，以及生成调用的参数 —— 这是一个典型的 agent + function calling 场景。 ReSearch目标将这种search的reasoning能力通过RL学到。具体来说，ReSearch 采用了专门为搜索功能设计的训练模版： <think>...</think>：表示模型的思考过程； <search>...</search>：表示模型发起的搜索查询； <result>...</result>：表示搜索引擎返回的结果； <answer>...</answer>：表示模型给出的最终答案。特别地，ReSearch 的奖励函数不是仅仅基于答案对错，而是采用 rule-based 的组合机制：基于答案的 F1 相似度 + 输出格式是否符合模板，以此优化 policy，微调语言模型参数。此时不免再次提及 ReAct：ReSearch 充满了 ReAct 的循环影子——： Reasoning：模型的思考过程； Action：模型发起的调用； Observation：工具返回的反馈。 ReAct 是神作，它以 verbal reasoning （人话）的方式，将原本充满数学公式的 RL 概念转化为语言链式推理，让 LLM 学会如何使用工具，优雅而简洁。一些思考： ReSearch 以及前几天分享的 ReTool 是非常类似的工作，它们都通过强化学习微调，将使用工具的能力内化于语言模型中，增强工具调用的鲁棒性。但它们的局限性也非常明显：ReSearch 和 ReTool 都只支持一种工具 —— search API 和 code interpreter。而 ReAct，通过 Prompt Engineering，就可以灵活调用多个外部工具。 ReSearch 和 ReTool 的 RL 框架是为“单工具、二选一调度”设计的。如果强行扩展为多工具，训练信号将更加稀疏、credit assignment 更加困难，其策略网络、reward assignment、以及 rollout 表达能力都需要重新设计。我们距离真正原生具备多轮、多工具能力的通用 Agent，还有一段距离。

#agent #RAG #reasoning #Research #React #强化学习 #大模型 #Reinforcement Learning #工具使用 #创新框架

马东锡 NLP 🇸🇪

7个月前

「LLM, Reasoning」论文： (How) Do reasoning models reason? “真正的智能，是让模型在生成时就做出正确选择，而不是事后去验证哪个选项是对的。” 作者Subbarao Kambhampati，我不完全同意他，但我很喜欢他。2024年ACL Keynote，他批评当前对 Chain of Thought 的信仰如同宗教。——我们喜欢看到推理的样子，但并未真正验证推理的实质。这篇论文，简直就是把当前 LLM 推理潮流一锅端，按住OpenAI o1 和 DeepSeek R1 提出了两个灵魂拷问： 1: Large Reasoning Model 是在推理还是在检索？作者认为，LRM 并非真正“推理”，它们的行为更像经过训练强化的“近似检索”系统。所谓“推理”，往往只是模型通过被筛选过的训练样本“生成看起来像推理的输出”。如果模型生成的候选解中压根就没有一个是对的，也就无法进行强化训练。这意味着 LRM 的“推理”质量依赖于它是否能撞上一个正确答案。 2: Chain of Thought 是否跟“思考相关”？作者认为，CoT,（如step-by-step 的文字、公式、甚至“wait...”、“aha moment”这类表述）并不能证明模型真的在“思考”，它们很可能只是模仿人类风格的产物——大型模仿模型（Large Mumbling Models, LMMs）。😂 例如，CoT可以胡说八道但仍“撞对”答案, 模型通过 RL 训练输出的CoT只要能让最终答案更准确，哪怕是乱码也无所吊谓。最后，此片论文同样是对test time scaling的犀利审视，test time scaling本质是把原本在“测试时”才能验证的东西，提前“编译”进了模型的生成过程中。换句话说，模型不是学会了推理，而是学会了如何在多次尝试中更容易猜对答案。这跟真正的智能背道而驰。按照作者的思路，当下post training的套路如下： - 测试阶段：拼命尝试多个答案 - 筛选阶段：用外部验证器选出对的那个 - 训练阶段：把这套套路“硬塞回生成器”，形成“像在思考的样子” 所以它不是真的学会了推理，而是学会了：如何让自己看起来像在推理，并增加猜中率。 Intelligence is the ability to shift the test part of generate-and-test into the generate part. inspriing!

#LLM #reasoning #智能 #模型 #Subbarao Kambhampati #ACL #Chain of Thought

马东锡 NLP 🇸🇪

7个月前

「LLM， Agent, RL的关系」在LLM的语境下，Agent是能理解问题，自主进行推理（Reasoning），并采取行动的系统。你可以把它想象成一个非常聪明的助手，当你提出复杂问题时，它不会立即给出答案，而是会在内心进行推理和规划（Planning），再给出最终决定。如果我们回顾prompt engineering中提高LLM Reasoning能力的方法，如Self-Consistency、Tree of Thoughts 和 ReAct，本质上都体现了强化学习（RL）中常见的规划思想： Tree of Thoughts：如同下棋时，你脑海中会形成一个思考树，一步步推演未来可能的局面，从而找到最优解。这与RL中的树搜索（Tree Search）方法完全对应，体现了明显的模型化规划（Model-based Planning）特征。 ReAct（Reasoning+Acting，推理加行动）：类似于你边思考边行动，不断尝试，再根据反馈调整下一步的计划。这种推理与行动的交替模式与RL中Agent持续地感知状态（Observing）、制定策略（Policy）、采取行动（Acting）并从环境中获得反馈（Feedback）非常类似。为什么增强LLM的Reasoning通常要使用RL方法？尽管LLM本身已经具备强大的知识和生成能力，但它们本质上是基于“下一个词预测”的机制（Next-Word Prediction），缺乏深度的Planning能力和对未来结果的有效预测。这就像一个聪明但缺乏系统训练的人，虽然懂得很多知识，但在面对复杂决策时容易陷入短视和错误。 RL方法的加入，就像给LLM提供了一种“内心世界模型”（Internal World Model），帮助模型进行更好的内部规划： RL能帮助LLM学会评估和预测不同推理路径的可能结果，从而选择更优的路径，恰如DeepSeek R1, Kimi, o1的方法。立一个FLAG, 把这些RL方法一个个用人话讲明白。

#LLM #agent #RL #reasoning #planning #Prompt Engineering #AI助手 #自主推理

马东锡 NLP 🇸🇪

7个月前

更强的reasoning，更好的Agent 论文分享： Thinking Machines: A Survey of LLM based Reasoning Strategies 在我们开发Agent的项目的时候，需要更好的LLM reasoning的能力，以获得更高的任务完成准确率。那么有哪些方法可以增强LLM的reasoning能力呢？沿着之前我分享的Testing time scaling的轨迹，这篇论文的部分内容对于增强Large Reasoning Model的策略非常有参考价值：反馈引导优化（Feedback Guided Improvement）步骤反馈（Step-Feedback, SF）：逐步评分，仅保留最佳路径（如Beam Search/MCTS）结果反馈（Outcome-Feedback, OF）：生成多条结果整体评分，择优输出计算资源扩展（Scaling Test-Time Computation）提高单词级计算（Scaling Token-Level Compute）：如best-of-N sampling 自反馈优化（Self-Feedback）：模型自我优化，无需再训练（非Self-Teaching）

#reasoning #LLM #agent