马东锡 NLP 🇸🇪发布的内容- 第2页 news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

马东锡 NLP 🇸🇪

统计数据

33

文章

0

粉丝

0

获赞

39

阅读

马东锡 NLP 🇸🇪

3个月前

「LLM x RL」DeepSeek 最新论文：Inference-Time Scaling for Generalist Reward Modeling 在 RL 中，Reward Modeling（RM）是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分，从而调整 LLM 的 policy，使其更符合 RM 设定的要求，比如更强的 reasoning 能力。针对特定任务（Task-specific）的 RM 相对容易设计，能够对 LLM 在具体任务中的生成结果进行较为准确的评分。但一个通用的 Reward Model（General RM，简称 GRM），需要对不同类型的任务都给出准确评分，这非常困难。 GRM 的难点在于它需要学习一个潜在的规则（latent rule），以判断在不同任务中应该如何评分。然而 latent rule 难以学习，DeepSeek 干脆采用了显式的、基于规则（rule-based）的方法——所谓的 Self-Principled Critique Tuning（SPCT），通过生成不同的 principle 和 critique 来辅助 GRM 的评分。非常聪明！但看到 rule-based，又仿佛回到了 machine learning 最初的模样：rule-based、feature engineering……

#LLM #RL #RewardModeling #InferenceTimeScaling #DeepSeek #PolicyAdjustment #ReasoningAbility #AI #MachineLearning

马东锡 NLP 🇸🇪

4个月前

「LLM， Agent, RL的关系」在LLM的语境下，Agent是能理解问题，自主进行推理（Reasoning），并采取行动的系统。你可以把它想象成一个非常聪明的助手，当你提出复杂问题时，它不会立即给出答案，而是会在内心进行推理和规划（Planning），再给出最终决定。如果我们回顾prompt engineering中提高LLM Reasoning能力的方法，如Self-Consistency、Tree of Thoughts 和 ReAct，本质上都体现了强化学习（RL）中常见的规划思想： Tree of Thoughts：如同下棋时，你脑海中会形成一个思考树，一步步推演未来可能的局面，从而找到最优解。这与RL中的树搜索（Tree Search）方法完全对应，体现了明显的模型化规划（Model-based Planning）特征。 ReAct（Reasoning+Acting，推理加行动）：类似于你边思考边行动，不断尝试，再根据反馈调整下一步的计划。这种推理与行动的交替模式与RL中Agent持续地感知状态（Observing）、制定策略（Policy）、采取行动（Acting）并从环境中获得反馈（Feedback）非常类似。为什么增强LLM的Reasoning通常要使用RL方法？尽管LLM本身已经具备强大的知识和生成能力，但它们本质上是基于“下一个词预测”的机制（Next-Word Prediction），缺乏深度的Planning能力和对未来结果的有效预测。这就像一个聪明但缺乏系统训练的人，虽然懂得很多知识，但在面对复杂决策时容易陷入短视和错误。 RL方法的加入，就像给LLM提供了一种“内心世界模型”（Internal World Model），帮助模型进行更好的内部规划： RL能帮助LLM学会评估和预测不同推理路径的可能结果，从而选择更优的路径，恰如DeepSeek R1, Kimi, o1的方法。立一个FLAG, 把这些RL方法一个个用人话讲明白。

#LLM #agent #RL #reasoning #planning #Prompt Engineering #AI助手 #自主推理

马东锡 NLP 🇸🇪

4个月前

「Agent」论文：Executable Code Actions Elicit Better LLM Agents 从 ReAct 到 CodeAct 如果让我在所有 LLM 论文中选择我最喜欢的一篇，2022 年的 ReAct 绝对是前三名之一。 ReAct 大道至简，天才般地将复杂的强化学习（RL）过程，通过口头表达的方式表现出来，至今依然是 Agent 项目中最简单、最有效、最稳健的工作流之一。如果说 Agent 在各个圈子带动了几百亿美元的投资，那么 ReAct 的价值不可估量。而它，仅仅是作者在 Google 实习期间的成果。这正是学术的魅力——一个价值超过几百亿美元、普通人一学就会的 ReAct，通过一篇免费论文传播出来，产生了巨大的实际价值。这篇论文是 ReAct 的演化版本，把固定的 tool 替换为可执行的 Python 代码，从而带来更丰富的变化。由于 Python 库的丰富性，CodeAct 在提升 tool 的数量级和复杂度方面有巨大潜力。尤其是 CodeAct 建立在 ReAct 的 observation–reasoning–action 工作流之上，使得它几乎可以实现 self-debug。这不禁让我想起那个如今无人提及、但去年融资超过 20 亿美元的 Devin。

#agent #LLM #React #CodeAct #强化学习 #论文 #项目

马东锡 NLP 🇸🇪

4个月前

更强的reasoning，更好的Agent 论文分享： Thinking Machines: A Survey of LLM based Reasoning Strategies 在我们开发Agent的项目的时候，需要更好的LLM reasoning的能力，以获得更高的任务完成准确率。那么有哪些方法可以增强LLM的reasoning能力呢？沿着之前我分享的Testing time scaling的轨迹，这篇论文的部分内容对于增强Large Reasoning Model的策略非常有参考价值：反馈引导优化（Feedback Guided Improvement）步骤反馈（Step-Feedback, SF）：逐步评分，仅保留最佳路径（如Beam Search/MCTS）结果反馈（Outcome-Feedback, OF）：生成多条结果整体评分，择优输出计算资源扩展（Scaling Test-Time Computation）提高单词级计算（Scaling Token-Level Compute）：如best-of-N sampling 自反馈优化（Self-Feedback）：模型自我优化，无需再训练（非Self-Teaching）

#reasoning #LLM #agent

马东锡 NLP 🇸🇪

4个月前

LRM论文选读：START: Self-taught Reasoner with Tools 这篇文章介绍了一种构建特定任务、私域Large Reasoning Model的有效方法，主要方法是微调，而且没有使用reinforcement learning，但却有非常类似reinforcement learning with human feedback的特征。关键词有二： Test-time scaling Rejection sampling fine-tuning（反思微调）

#Large Reasoning Model #微调 #Reinforcement Learning #human feedback #论文选读 #特定任务 #私域

马东锡 NLP 🇸🇪

4个月前

Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。但RL专业性非常强，去参加ML的会议时，专门做RL的研究员都现场拿着笔纸推算数学公式，掌握起来学习难度较高。分享一本RL的入门教材，从RL基础MDP，PPO，直到跟LLM结合，如RLHF，都有讲解，深入浅出。 Reinforcement Learning: An Overview：

#强化学习 #大型语言模型 #RLHF #PPO #MDP #Reinforcement Learning #LLM

马东锡 NLP 🇸🇪

4个月前

大语言模型 post-training 的变迁，从 Large Language Model (LLM) 到 Large Reasoning Model (LRM) 本周推荐论文：POST-TRAINING OF LARGE LANGUAGE MODELS Post-training，本质是在做一件事，即如何运用 LLM 的 pretrained knowledge 来解决实际任务，具体的方法如 supervised fine-tuning（SFT）、instruction tuning 以及 reinforcement learning（RL）。

#大语言模型 #后训练 #Large Language Model #Large Reasoning Model #POST-TRAINING #预训练知识

马东锡 NLP 🇸🇪

4个月前

从 Chain of Thought 到 aha moment和wait，看大模型的 test time scaling和深度思考大模型们在过去的一年，都有了自己的deep search, think, reasoning, 深度思考...等关键词或者产品。作为NLP从业者，我都会禁不住问自己，这都是些啥...😅今天就来解读这个问题，这些产品的所有本质，来自一个学术词汇，即test time scaling。回归的第一篇，从test time scaling的角度，缕一遍从OpenAI o1 到DeepSeek R1, 从chain of thought，到所谓的aha moment。最后，以一篇论文结束，谈谈如何微调来获得私域深度思考模型。

#Chain of Thought #aha moment #深度思考 #大模型 #NLP #test time scaling