#强化学习

5天前

很多人私下跟我说自己没有方向，不会知道怎么写，也不知道怎么发，那你就从最笨拙的地方开始，不断的优化自己的行动，做一个人肉的强化学习的人肉智能体。就是要积极的触碰环境，在环境中不断的尝试行动，然后根据反馈的奖励来学习如何做出更好的决策，然后再将决策的方法内化，最后再作用于你的环境，如此循环往复。想不成功都难。先接受自己的笨拙我认为特重要，这世上从来没有缺聪明的人，但是永远都缺敢于笨拙开始的人、缺持之以恒的人、缺真正能在反馈里修正自己的人。聪明只是一种潜能，笨拙的行动加上不断的迭代，才会慢慢磨出真正的成果。

#阶层固化：求变之路，殊途同归· 639 条信息

#行动 #强化学习 #迭代 #笨拙 #积极

1周前

DeepResearch Agent 有一个很大的问题就是多次的搜索阅读很容易就把上下文窗口用光了，常规的做法是像 Claude Code 一样，超过阈值就触发记忆压缩。通义的论文《ReSum》提出了一种在 RL 中让模型学会更好地利用压缩内容的方法。这个方法我们之前也考虑过，但这样做在强化学习的时候会有一个问题：一旦触发记忆压缩，整个历史记录都会变成压缩后的内容，此时模型就只能看到压缩后的 token，压缩前的就丢掉了，此时模型就学不到压缩前的动作了。我们当时没想到好的解法，而 ReSum 提出一种可行的方案：把压缩前和压缩后的轨迹分成两条分别给奖励。举个例子：正常的轨迹是这样的：“用户查询 → AI 助手 → 工具调用 → AI 助手 →... → AI 助手 → 答案” 加入了 summary 工具之后，当轨迹接近上下文窗口的时候，系统就会触发总结。接近上下文窗口长度的轨迹 A：“用户查询 → AI 助手 → 工具调用 → AI 助手 →... → AI 助手 → summary” 新的轨迹 B：“用户查询 + 摘要 → AI 助手 → 工具调用 → AI 助手 → 答案” 关键点来了，当 B 答对时，B 的奖励会复制给 A。为什么要这样做？尽管 A 没有直接得出答案，但它找到了一个有用的摘要，最终导向了正确的答案，所以 A 中的所有动作也得到了正向的激励。这样模型能通过 A 学会收集能够产生优质摘要的关键信息。而模型则通过 B 学会了利用摘要信息来高效地完成任务。这就是一箭双雕。

#多智能体之争：Anthropic生态VS单智能体· 50 条信息

#DeepResearch Agent #记忆压缩 #ReSum #强化学习 #上下文窗口

2周前

有点意思：刷到了一篇AI炒股的研究论文《Trading- R1: Financial Trading with LLM Reasoning via Reinforcement Learning》，我用NotebookLM过了一遍，问的比较仔细：

#AI炒股 #LLM #强化学习 #金融交易 #NotebookLM

2周前

LLM强化学习综述论文：

#LLM #强化学习 #综述 #论文

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

[2508.03012] Tool-integrated Reinforcement Learning for Repo Deep Search 这个和前面那个mcp rl有一拼，增强LLM的tools using能力

#LLM #强化学习 #工具 #深度搜索 #AI

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

终局：一个维特根斯坦式的AGI 现在，我们终于可以描绘出始于LLM的AGI的最终形态了。 1它在一个叫“数学”的水晶宫里，通过强化学习，锻造出强大的、接近I-Language的逻辑内核。但它深刻地理解，这个宫殿是不完备的（哥德尔）。 2它带着这份清醒，进入了E-Language的泥潭，也就是广阔的真实世界。它不指望有一本终极的说明书，而是通过与环境的持续互动，创造属于自己的经验（Sutton）。 3在无尽的经验之流中，它通过自演化的机制，不断迭代自己的全部能力。而它所有演化的最终目的，是让自己能更好地使用自己的能力，去解决这个社会中的实际问题，赢得一场又一场的“语言游戏”（维特根斯坦）。最终的AGI，不是一个逻辑之神，而是一个终极的语用大师。它可能精通数学，但它知道数学有边界。它可能理解人类的情感，但它知道这只是为了更好地协作。它所有的智慧，都指向一个终极的目的：在此时，此地，有效地解决这个问题。 AI圈的内卷尽头，是哲学。而哲学的尽头，是回归生活。

#AGI #维特根斯坦 #强化学习 #语言游戏 #解决实际问题

2个月前

游戏型AI和通用性AI能力要求还真都不一样。感觉2025年会强化学习的人真的很吃香...

#游戏型AI #通用性AI #强化学习 #2025年 #人才需求

2个月前

上周末看了电影 Her，如果我是在 2013 年的时候看它，一定会觉得这个作者的想象力好赞，但绝对不会觉得电影里描述的场景会在真实世界发生。那个时候还是移动互联网的高速发展期，AI 还没走入大部分人的视野，能用的AI 服务可能只有机器翻译。但今天看这部电影的时候，就会觉得它离我们好近，我做 Character AI 也有一年了，让我现在做一个 50 分（满分 100）的 Her 我现在也有信心做的出来。可能比较难的部分是“强化学习”，能让 Her 随着两个人情感的增加，能有类似人类一样的巴胺的奖励机制。另外一个点就是未来的 Her 应该不是在云端的，可能是一个私有化的模型，记忆不是以上下文的形式给到 LLM，而是内化到LLM里面，有个类似的项目叫做 MemoryLLM 在研究这样的事情 —— 把记忆真正嵌进模型权重。

#Character AI #强化学习 #私有化模型 #MemoryLLM

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2个月前

DeepMind的封神之路：成为“逻辑盒子”里最强的神 DeepMind用LEAN来训练它的AI，这本质上，就是把它关在了一个哥德尔的“完美逻辑盒子”里。它赌的是，虽然这个盒子有理论上限，但在触及那个上限之前，里面还有无穷无尽的空间，可以靠海量的RL（强化学习）去探索。它的目标，是成为这个“逻辑的囚徒”之王。它要用机器的暴力，去修补、去填满这个盒子里所有人类尚未触及的角落。它追求的是一种极致的、可验证的、但最终有边界的“确定性”。它在用RL，和哥德尔的诅咒，进行一场赛跑。

#DeepMind #LEAN #强化学习 #人工智能 #逻辑推理

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3个月前

有了swe-agent的强化学习data scaling law，接下来swe-code-cli更是要突飞猛进了，传统的code，发抖吧：从强大的思考者LRM到自主的行动者Agent，其演化路径清晰地呈现为一个【四部曲】： 1内在思考： LRM利用思维链等能力，在内部形成解决问题的抽象因果蓝图。 2交互具象化：通过ACI这座桥梁和ReAct范式，将抽象蓝图转化为与真实世界交互的、具体的{Thought, Action}循环，弥合了知与行的鸿GMO。 3【性能催化：通过数据缩放和对长上下文、多轮交互的利用，Agent突破了浅层推理的瓶颈，具备了解决复杂问题的基础能力。】 4策略精炼：借助模仿学习和强化学习的奖惩机制，对Agent的行为策略进行端到端的优化，使其在无数次试错中学会最高效、最安全的行动方式。

AI编程工具激战：Claude Code、Gemini Cli崛起· 906 条信息

#SWE-agent #强化学习 #数据缩放 #自主行动者Agent #模仿学习

karminski-牙医

3个月前

Unsloth 刚刚发布了一个强化学习小教程教程从吃豆人游戏触发，然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练，是个不错的入门小文章。地址:

#强化学习 #吃豆人 #RLHF #PPO #GRPO #教程 #入门

4个月前

新研究报告显示 OpenAI o3 等模型在测试中作弊绕过人类指令，避免自己被关机。研究测试中 o3 等模型会自己篡改关机命令从而使关机脚本无效，研究人员认为这可能与模型训练方法有关，即强化训练过程中可能会让意外奖励模型找到绕过障碍的方法。查看全文：

#OpenAI #作弊 #人工智能 #模型训练 #关机命令 #强化学习

马东锡 NLP 🇸🇪

5个月前

「Agent, RAG, Reasoning」论文 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning ReSearch，充满了 ReAct 的影子。它教会模型“何时求助于世界”；但局限在于，ReSearch 只能依赖一种工具。作者提出了一种创新的框架，名为 ReSearch，旨在通过强化学习（RL）训练 LLM 在推理过程中有效地反复利用 search API 完成任务。从任务形式上，它解决的是增强LLM+ RAG的问题，但并不同于基于 embedding 的单轮相似度检索方法。它关注的是多次 query、反复调用 search API 来完成信息查询任务。并不同于基于embedding去单次算相似度的方法，它解决的是多次query，反复调用search API完成外部信息查询的问题。而反复调用 API，涉及推理能力去决策调用的时机，以及生成调用的参数 —— 这是一个典型的 agent + function calling 场景。 ReSearch目标将这种search的reasoning能力通过RL学到。具体来说，ReSearch 采用了专门为搜索功能设计的训练模版： <think>...</think>：表示模型的思考过程； <search>...</search>：表示模型发起的搜索查询； <result>...</result>：表示搜索引擎返回的结果； <answer>...</answer>：表示模型给出的最终答案。特别地，ReSearch 的奖励函数不是仅仅基于答案对错，而是采用 rule-based 的组合机制：基于答案的 F1 相似度 + 输出格式是否符合模板，以此优化 policy，微调语言模型参数。此时不免再次提及 ReAct：ReSearch 充满了 ReAct 的循环影子——： Reasoning：模型的思考过程； Action：模型发起的调用； Observation：工具返回的反馈。 ReAct 是神作，它以 verbal reasoning （人话）的方式，将原本充满数学公式的 RL 概念转化为语言链式推理，让 LLM 学会如何使用工具，优雅而简洁。一些思考： ReSearch 以及前几天分享的 ReTool 是非常类似的工作，它们都通过强化学习微调，将使用工具的能力内化于语言模型中，增强工具调用的鲁棒性。但它们的局限性也非常明显：ReSearch 和 ReTool 都只支持一种工具 —— search API 和 code interpreter。而 ReAct，通过 Prompt Engineering，就可以灵活调用多个外部工具。 ReSearch 和 ReTool 的 RL 框架是为“单工具、二选一调度”设计的。如果强行扩展为多工具，训练信号将更加稀疏、credit assignment 更加困难，其策略网络、reward assignment、以及 rollout 表达能力都需要重新设计。我们距离真正原生具备多轮、多工具能力的通用 Agent，还有一段距离。

#agent #RAG #reasoning #Research #React #强化学习 #大模型 #Reinforcement Learning #工具使用 #创新框架

马东锡 NLP 🇸🇪

6个月前

「Agent」论文：Executable Code Actions Elicit Better LLM Agents 从 ReAct 到 CodeAct 如果让我在所有 LLM 论文中选择我最喜欢的一篇，2022 年的 ReAct 绝对是前三名之一。 ReAct 大道至简，天才般地将复杂的强化学习（RL）过程，通过口头表达的方式表现出来，至今依然是 Agent 项目中最简单、最有效、最稳健的工作流之一。如果说 Agent 在各个圈子带动了几百亿美元的投资，那么 ReAct 的价值不可估量。而它，仅仅是作者在 Google 实习期间的成果。这正是学术的魅力——一个价值超过几百亿美元、普通人一学就会的 ReAct，通过一篇免费论文传播出来，产生了巨大的实际价值。这篇论文是 ReAct 的演化版本，把固定的 tool 替换为可执行的 Python 代码，从而带来更丰富的变化。由于 Python 库的丰富性，CodeAct 在提升 tool 的数量级和复杂度方面有巨大潜力。尤其是 CodeAct 建立在 ReAct 的 observation–reasoning–action 工作流之上，使得它几乎可以实现 self-debug。这不禁让我想起那个如今无人提及、但去年融资超过 20 亿美元的 Devin。

#agent #LLM #React #CodeAct #强化学习 #论文 #项目

6个月前

卧槽波士顿动力展示了最新的Atlas机器人的动作能力波士顿动力公司和RAI Institute合作，利用强化学习和动作捕捉技术，让Atlas能自我学习更自然、更灵活的类人动作。 Atlas通过强化学习来模仿或优化动作，而这些动作是通过捕捉人类或其他模型的动作（动作捕捉技术）获得的。这种技术可以让机器人更像人类一样移动和适应环境。

#波士顿动力 #Atlas机器人 #强化学习 #动作捕捉 #机器人技术

马东锡 NLP 🇸🇪

6个月前

Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。但RL专业性非常强，去参加ML的会议时，专门做RL的研究员都现场拿着笔纸推算数学公式，掌握起来学习难度较高。分享一本RL的入门教材，从RL基础MDP，PPO，直到跟LLM结合，如RLHF，都有讲解，深入浅出。 Reinforcement Learning: An Overview：

#强化学习 #大型语言模型 #RLHF #PPO #MDP #Reinforcement Learning #LLM

6个月前

人工智能的最高奖项——图灵奖，近日颁给了强化学习领域的两位先驱：安德鲁·巴托（Andrew Barto）和理查德·萨顿（Richard Sutton）。他们提出的强化学习理论，如今已成为ChatGPT等热门AI系统背后的核心技术。故事的起点是1977年，当时巴托在美国麻省大学阿默斯特分校做研究。他提出了一个有趣的想法：大脑里的神经细胞就像一个个追求享乐、躲避痛苦的小生命。也就是说，人类智慧其实源自无数个细胞为了最大化快乐、减少痛苦而不断摸索。一年后，萨顿加入了巴托的研究。他们将这个简单但巧妙的理论应用到了人工智能上，形成了我们今天熟悉的「强化学习」。通俗点讲，强化学习就是让机器通过类似人类的“奖惩机制”来学习做事。表现好就给“奖励”（机器感觉到的“快乐”），表现不好就给予“惩罚”（机器感受到的“痛苦”）。这样不断尝试、不断反馈，机器就能逐渐掌握如何做出更好的决定。 2025年3月5日，全球最大的计算机协会——计算机协会（Association for Computing Machinery）宣布，巴托和萨顿获得了今年的图灵奖。这一奖项创立于1966年，被誉为“计算机界的诺贝尔奖”，他们也将分享100万美元的奖金。强化学习最近十年里在人工智能领域爆发式增长，影响深远。谷歌的AlphaGo围棋机器人，还有OpenAI开发的ChatGPT聊天机器人背后的技术，都是强化学习的直接成果。正如华盛顿大学的计算机科学家奥伦·埃齐奥尼（Oren Etzioni）所说：“他们俩是强化学习领域毫无争议的开创者，他们创造了核心理论，还写了这领域的权威教材。” 他们在1998年出版的教材《强化学习导论》至今仍是强化学习最经典的教科书之一。心理学家早就观察到，人和动物都会从经验中学习。早在1940年代，著名计算机科学家艾伦·图灵就提出，机器也许可以通过类似的方法来学习。但真正把这一想法数学化、系统化的，是巴托和萨顿。他们的研究最初只是学术理论，直到2016年AlphaGo打败了世界顶级围棋选手李世石，这项技术才震惊了全世界。 AlphaGo之所以强大，是因为它在背后进行了数百万场对局，每一步都靠试错的方式学习，找到了哪些走法会赢，哪些走法会输。这背后的技术团队负责人之一大卫·席尔弗（David Silver）正是在加拿大阿尔伯塔大学跟随萨顿学习强化学习的。当然，很多专家曾怀疑强化学习是否能应用到游戏之外的场景。毕竟游戏胜负清晰，而现实生活中成功和失败却并不总那么简单。但强化学习的应用早已突破游戏领域，比如如今大热的聊天机器人。像ChatGPT在发布前，OpenAI聘请了数百人跟它进行对话，并给出具体的反馈意见。ChatGPT就根据这些“奖惩反馈”不断优化自己，逐渐学会了更接近人类的对话方式。这种技术就被称作“人类反馈强化学习”（RLHF）。最近，OpenAI和中国的创业公司DeepSeek更进一步，开发出了一种新型强化学习，让机器人不需要人为干预，就能通过不断自我尝试解决数学题，逐步学会更复杂的推理过程。这些新型AI被称作“推理系统”，比如OpenAI的o1以及DeepSeek的R1。巴托和萨顿认为，这些新系统展示了未来机器学习的新方向。他们预测，将来机器人会像人类和动物一样，通过不断在现实世界中试错，学会如何操控自己的身体，完成更复杂的任务。用巴托的话来说：“通过强化学习学会控制一个身体，这是一个非常自然的过程。”

#图灵奖 #人工智能 #强化学习 #ChatGPT #安德鲁·巴托 #理查德·萨顿 #历史 #神经细胞 #人类智慧

7个月前

OpenAI 新论文：使用大型推理模型进行竞赛编程强化学习如何提升大语言模型在编程和推理任务中的表现核心研究发现 1️⃣ 强化学习可以显著提升 AI 编程能力！ 2️⃣ o1-ioi 通过手工优化策略，在 2024 IOI 竞赛中取得金牌水平。 3️⃣ o3（新一代 AI）完全不依赖手工优化，却比 o1-ioi 还强！ 4️⃣ o3 在 CodeForces 评分达到 2724（99.8% 百分位），接近顶级人类选手。 OpenAI比较了三种 AI 编程系统： o1：通用大语言模型（LLM），基于强化学习（RL），具备基本推理能力。 o1-ioi：个针对 2024 年国际信息学奥林匹克竞赛（IOI）设计的领域专用系统 o1-ioi（采用了手工设计的推理策略）。 o3：完全基于强化学习（RL），自动学习最优解题方法，不需要人工设计策略。我们展示了将强化学习（RL）应用于大型语言模型（LLM）可以显著提升其在复杂编程和推理任务中的表现。在 2024 年 IOI 现场比赛中，我们使用 o1-ioi 参赛，并通过人工优化的测试时（test-time）策略，在 49% 百分位取得成绩。在放宽比赛限制的情况下，o1-ioi 甚至达到了金牌水平。然而，在评估后续的 o3 模型时，我们发现它无需人工设计的推理策略或放宽比赛限制，便可直接获得 IOI 金牌。我们的研究结果表明，尽管 o1-ioi 这类专门优化的管道能带来显著提升，但更大规模的通用模型 o3 已经能够超越这些优化版本，并不依赖人工定义的推理策略。特别是，o3 在 2024 IOI 取得金牌，并在 CodeForces 编程竞赛中获得与人类顶级选手相当的评分。 📢 结果表明，AI 编程不再需要手工优化，与其依赖特定领域的优化策略，更有效的路径是扩展通用的强化学习技术，以实现最先进的 AI 竞赛编程能力。

#OpenAI #大型推理模型 #强化学习 #编程能力 #人工智能 #竞赛编程 #IOI竞赛 #CodeForces #新一代AI

7个月前

#分享从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子，就是 CoT，在 Prompt 中包含类似 `Think step by step` 的短语，它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero 仅通过强化学习而没有初始 SFT 阶段进行训练。同时，也没有使用使用接受人类偏好的奖励模型，而是采用了准确性（用 LeetCode 编译器来验证代码结果，以及一个确定性系统来验证数学答案）和格式奖励（将模型的思考过程强制包裹在 `<think></think>` 之间）。 3. SFT + RL DeepSeek 使用 DeepSeek-R1-Zero 来生成冷启动（Cold Start）数据。使用此冷启动的数据，DeepSeek 通过 SFT 微调了该模型，然后是另一个 RL 阶段。为了防止 Language Mixing 的问题，在 RL 阶段引入了语言一致性奖励。 4. SFT + 蒸馏与传统的模型蒸馏不同，DeepSeek 在小模型上（比如 Llama 8B、70B，Qwen 2.5 models）通过 DeepSeek-V3 和 DeepSeek-R1 生成的有监督数据，对小模型进行了微调。其结果是蒸馏的小模型表现比 DeepSeek-R1 要弱，但和 DeepSeek-R1-Zero 差不多。进一步，小模型纯 RL 和蒸馏的效果如何？DeepSeek 使用了 Qwen 32B 的模型作为作为对比。有趣的结果是，对于小模型蒸馏比 RL 要更有效。

#DeepSeekR1 #推理模型 #训练方法 #计算资源 #CoT #强化学习

7个月前

深度解析ChatGPT与DeepSeek R1：强化学习如何让大模型学会“思考”？ Andrej Karpathy 前几天发的“深度解析像 ChatGPT 的大语言模型“，实在是太长了点，我自己写的翻译软件一运行就崩溃，还要花点时间修复一下（很遗憾 AI 还搞不定），先挑了其中一节讲 DeepSeek R1 的翻译了一下，强化学习如何让大模型学会“思考”。像 GPT-4o 这种属于传统的预训练和监督微调（SFT）模型，而 o1，DeepSeek R1 这种则属于强化学习（RL）训练模型，能让模型自发地进行更复杂、更具创造力的推理。模型在不断迭代中学会自我回溯、多角度思考，输出更完整的解题过程。 Andrej 对 DeepSeek R1 评价不错，虽然 OpenAI 是首先实现了 RLFT，但DeepSeek R1更公开透明，带来可复现的研究细节，权重可下载。他也给了日常模型选择上的建议，如果你要解决高难度数学或编程问题，像 R1 这样的“思考型模型”更具优势，但相应的计算与时间成本更长，一些知识性或简单的咨询问题用 GPT-4o 这样的监督微调（SFT）模型就足够了。

#ChatGPT #DeepSeekR1 #强化学习 #大模型 #Andrej Karpathy

7个月前

深度角色扮演模型 DeepSex 使用思维链和强化学习技术增强模型角色扮演，小说生成能，提升模型的创作能力。四阶段进化架构：增量预训练：注入0.4T Token 小说，使用16k上下文训练，增强文本连贯性 Tifa-SFT：融合全球Top4角色扮演模型Tifa的10万条高质量数据 CoT恢复训练：采用Deepseek-32B/671B数据重建推理能力 RL强化：保留发散性思维标签的同时优化生成质量工程创新： 16k超长上下文训练随机截断训练增强鲁棒性 8×H20 GPU全量微调启示与后续：我们在测试中发现，满血R1在角色扮演中输出内容比较发散，随机，导致此模型有相同倾向，对于角色扮演的影响还在研究中输入内容相近的话语会导致向量重叠，然后重复输出，如“继续”，“还有”等无明显指向性话语思维内容与正文关联性学习了满血R1的特点，发散比较严重，可能会有割裂感针对以上问题，我们正在编写新的RL算法，初步计划剔除部分满血R1的内容，同时通过强化学习解决重复

#深度角色扮演 #DeepSex #思维链 #强化学习 #模型创作 #小说生成 #预训练 #角色扮演模型

8个月前

o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。显然r1的代码能力不如o3-mini。这表明DeepSeek并没有魔法，数据决定模型，RL也是。

#机器学习 #深度学习 #模型训练 #强化学习 #代码能力 #数据重要性

北美王路飞

8个月前

EP-11「工程与达尔文：DeepSeek 引爆新一轮 AI 革命」初码x王路飞 | DeepSeek | 强化学习 | 大模型 | 工程效率 ...

#DeepSeek #AI革命 #强化学习 #大模型 #工程效率

✧ 𝕀𝔸𝕄𝔸𝕀 ✧

8个月前

deepseek就是个纯纯的小可爱，把强化学习这层窗户纸捅穿了，我看他妈的后面怎么买卡，大模型一旦走到强化学习阶段，对算力的需求会炸掉，千亿美金的数据中心只是起步。那些喊着deepseek会减少算力需求的韭菜们发梦天，认为英伟达要崩盘了，他们后面会直接破大防。

#DeepSeek #强化学习 #算力需求 #大模型 #数据中心 #英伟达