时政
财经
科技
登录
#强化学习
关注
karminski-牙医
2周前
Unsloth 刚刚发布了一个强化学习小教程 教程从吃豆人游戏触发,然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练,是个不错的入门小文章。 地址:
#强化学习
#吃豆人
#RLHF
#PPO
#GRPO
#教程
#入门
分享
评论 0
0
蓝点网
1个月前
新研究报告显示 OpenAI o3 等模型在测试中作弊绕过人类指令,避免自己被关机。 研究测试中 o3 等模型会自己篡改关机命令从而使关机脚本无效,研究人员认为这可能与模型训练方法有关,即强化训练过程中可能会让意外奖励模型找到绕过障碍的方法。 查看全文:
#OpenAI
#作弊
#人工智能
#模型训练
#关机命令
#强化学习
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
「Agent, RAG, Reasoning」论文 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning ReSearch,充满了 ReAct 的影子。它教会模型“何时求助于世界”;但局限在于,ReSearch 只能依赖一种工具。 作者提出了一种创新的框架,名为 ReSearch,旨在通过强化学习(RL)训练 LLM 在推理过程中有效地反复利用 search API 完成任务。 从任务形式上,它解决的是增强LLM+ RAG的问题,但并不同于基于 embedding 的单轮相似度检索方法。 它关注的是多次 query、反复调用 search API 来完成信息查询任务。 并不同于基于embedding去单次算相似度的方法,它解决的是多次query,反复调用search API完成外部信息查询的问题。 而反复调用 API,涉及推理能力去决策调用的时机,以及生成调用的参数 —— 这是一个典型的 agent + function calling 场景。 ReSearch目标将这种search的reasoning能力通过RL学到。 具体来说,ReSearch 采用了专门为搜索功能设计的训练模版: <think>...</think>:表示模型的思考过程; <search>...</search>:表示模型发起的搜索查询; <result>...</result>:表示搜索引擎返回的结果; <answer>...</answer>:表示模型给出的最终答案。 特别地,ReSearch 的奖励函数不是仅仅基于答案对错,而是采用 rule-based 的组合机制:基于答案的 F1 相似度 + 输出格式是否符合模板,以此优化 policy,微调语言模型参数。 此时不免再次提及 ReAct:ReSearch 充满了 ReAct 的循环影子——: Reasoning:模型的思考过程; Action:模型发起的调用; Observation:工具返回的反馈。 ReAct 是神作,它以 verbal reasoning (人话)的方式,将原本充满数学公式的 RL 概念转化为语言链式推理,让 LLM 学会如何使用工具,优雅而简洁。 一些思考: ReSearch 以及前几天分享的 ReTool 是非常类似的工作,它们都通过强化学习微调,将使用工具的能力内化于语言模型中,增强工具调用的鲁棒性。 但它们的局限性也非常明显:ReSearch 和 ReTool 都只支持一种工具 —— search API 和 code interpreter。 而 ReAct,通过 Prompt Engineering,就可以灵活调用多个外部工具。 ReSearch 和 ReTool 的 RL 框架是为“单工具、二选一调度”设计的。如果强行扩展为多工具,训练信号将更加稀疏、credit assignment 更加困难,其策略网络、reward assignment、以及 rollout 表达能力都需要重新设计。 我们距离真正原生具备多轮、多工具能力的通用 Agent,还有一段距离。
#agent
#RAG
#reasoning
#Research
#React
#强化学习
#大模型
#Reinforcement Learning
#工具使用
#创新框架
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
「Agent」论文:Executable Code Actions Elicit Better LLM Agents 从 ReAct 到 CodeAct 如果让我在所有 LLM 论文中选择我最喜欢的一篇,2022 年的 ReAct 绝对是前三名之一。 ReAct 大道至简,天才般地将复杂的强化学习(RL)过程,通过口头表达的方式表现出来,至今依然是 Agent 项目中最简单、最有效、最稳健的工作流之一。 如果说 Agent 在各个圈子带动了几百亿美元的投资,那么 ReAct 的价值不可估量。而它,仅仅是作者在 Google 实习期间的成果。这正是学术的魅力——一个价值超过几百亿美元、普通人一学就会的 ReAct,通过一篇免费论文传播出来,产生了巨大的实际价值。 这篇论文是 ReAct 的演化版本,把固定的 tool 替换为可执行的 Python 代码,从而带来更丰富的变化。由于 Python 库的丰富性,CodeAct 在提升 tool 的数量级和复杂度方面有巨大潜力。 尤其是 CodeAct 建立在 ReAct 的 observation–reasoning–action 工作流之上,使得它几乎可以实现 self-debug。这不禁让我想起那个如今无人提及、但去年融资超过 20 亿美元的 Devin。
#agent
#LLM
#React
#CodeAct
#强化学习
#论文
#项目
分享
评论 0
0
小互
3个月前
卧槽 波士顿动力展示了最新的Atlas机器人的动作能力 波士顿动力公司和RAI Institute合作,利用强化学习和动作捕捉技术,让Atlas能自我学习更自然、更灵活的类人动作。 Atlas通过强化学习来模仿或优化动作,而这些动作是通过捕捉人类或其他模型的动作(动作捕捉技术)获得的。 这种技术可以让机器人更像人类一样移动和适应环境。
#波士顿动力
#Atlas机器人
#强化学习
#动作捕捉
#机器人技术
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。 但RL专业性非常强,去参加ML的会议时,专门做RL的研究员都现场拿着笔纸推算数学公式,掌握起来学习难度较高。 分享一本RL的入门教材,从RL基础MDP,PPO,直到跟LLM结合,如RLHF,都有讲解,深入浅出。 Reinforcement Learning: An Overview:
#强化学习
#大型语言模型
#RLHF
#PPO
#MDP
#Reinforcement Learning
#LLM
分享
评论 0
0
宝玉
3个月前
人工智能的最高奖项——图灵奖,近日颁给了强化学习领域的两位先驱:安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton)。他们提出的强化学习理论,如今已成为ChatGPT等热门AI系统背后的核心技术。 故事的起点是1977年,当时巴托在美国麻省大学阿默斯特分校做研究。他提出了一个有趣的想法:大脑里的神经细胞就像一个个追求享乐、躲避痛苦的小生命。也就是说,人类智慧其实源自无数个细胞为了最大化快乐、减少痛苦而不断摸索。 一年后,萨顿加入了巴托的研究。他们将这个简单但巧妙的理论应用到了人工智能上,形成了我们今天熟悉的「强化学习」。通俗点讲,强化学习就是让机器通过类似人类的“奖惩机制”来学习做事。表现好就给“奖励”(机器感觉到的“快乐”),表现不好就给予“惩罚”(机器感受到的“痛苦”)。这样不断尝试、不断反馈,机器就能逐渐掌握如何做出更好的决定。 2025年3月5日,全球最大的计算机协会——计算机协会(Association for Computing Machinery)宣布,巴托和萨顿获得了今年的图灵奖。这一奖项创立于1966年,被誉为“计算机界的诺贝尔奖”,他们也将分享100万美元的奖金。 强化学习最近十年里在人工智能领域爆发式增长,影响深远。谷歌的AlphaGo围棋机器人,还有OpenAI开发的ChatGPT聊天机器人背后的技术,都是强化学习的直接成果。 正如华盛顿大学的计算机科学家奥伦·埃齐奥尼(Oren Etzioni)所说:“他们俩是强化学习领域毫无争议的开创者,他们创造了核心理论,还写了这领域的权威教材。” 他们在1998年出版的教材《强化学习导论》至今仍是强化学习最经典的教科书之一。 心理学家早就观察到,人和动物都会从经验中学习。早在1940年代,著名计算机科学家艾伦·图灵就提出,机器也许可以通过类似的方法来学习。但真正把这一想法数学化、系统化的,是巴托和萨顿。他们的研究最初只是学术理论,直到2016年AlphaGo打败了世界顶级围棋选手李世石,这项技术才震惊了全世界。 AlphaGo之所以强大,是因为它在背后进行了数百万场对局,每一步都靠试错的方式学习,找到了哪些走法会赢,哪些走法会输。这背后的技术团队负责人之一大卫·席尔弗(David Silver)正是在加拿大阿尔伯塔大学跟随萨顿学习强化学习的。 当然,很多专家曾怀疑强化学习是否能应用到游戏之外的场景。毕竟游戏胜负清晰,而现实生活中成功和失败却并不总那么简单。 但强化学习的应用早已突破游戏领域,比如如今大热的聊天机器人。像ChatGPT在发布前,OpenAI聘请了数百人跟它进行对话,并给出具体的反馈意见。ChatGPT就根据这些“奖惩反馈”不断优化自己,逐渐学会了更接近人类的对话方式。 这种技术就被称作“人类反馈强化学习”(RLHF)。最近,OpenAI和中国的创业公司DeepSeek更进一步,开发出了一种新型强化学习,让机器人不需要人为干预,就能通过不断自我尝试解决数学题,逐步学会更复杂的推理过程。这些新型AI被称作“推理系统”,比如OpenAI的o1以及DeepSeek的R1。 巴托和萨顿认为,这些新系统展示了未来机器学习的新方向。他们预测,将来机器人会像人类和动物一样,通过不断在现实世界中试错,学会如何操控自己的身体,完成更复杂的任务。 用巴托的话来说:“通过强化学习学会控制一个身体,这是一个非常自然的过程。”
#图灵奖
#人工智能
#强化学习
#ChatGPT
#安德鲁·巴托
#理查德·萨顿
#历史
#神经细胞
#人类智慧
分享
评论 0
0
小互
4个月前
OpenAI 新论文:使用大型推理模型进行竞赛编程 强化学习如何提升大语言模型在编程和推理任务中的表现 核心研究发现 1️⃣ 强化学习可以显著提升 AI 编程能力! 2️⃣ o1-ioi 通过手工优化策略,在 2024 IOI 竞赛中取得 金牌水平。 3️⃣ o3(新一代 AI)完全不依赖手工优化,却比 o1-ioi 还强! 4️⃣ o3 在 CodeForces 评分 达到 2724(99.8% 百分位),接近顶级人类选手。 OpenAI比较了三种 AI 编程系统: o1:通用大语言模型(LLM),基于强化学习(RL),具备基本推理能力。 o1-ioi:个针对 2024 年国际信息学奥林匹克竞赛(IOI) 设计的领域专用系统 o1-ioi(采用了手工设计的推理策略)。 o3:完全基于强化学习(RL),自动学习最优解题方法,不需要人工设计策略。我们展示了将强化学习(RL)应用于大型语言模型(LLM)可以显著提升其在复杂编程和推理任务中的表现。 在 2024 年 IOI 现场比赛中,我们使用 o1-ioi 参赛,并通过人工优化的测试时(test-time)策略,在 49% 百分位取得成绩。在放宽比赛限制的情况下,o1-ioi 甚至达到了金牌水平。 然而,在评估后续的 o3 模型时,我们发现它无需人工设计的推理策略或放宽比赛限制,便可直接获得 IOI 金牌。 我们的研究结果表明,尽管 o1-ioi 这类专门优化的管道能带来显著提升,但 更大规模的通用模型 o3 已经能够超越这些优化版本,并不依赖人工定义的推理策略。 特别是,o3 在 2024 IOI 取得金牌,并在 CodeForces 编程竞赛中获得与人类顶级选手相当的评分。 📢 结果表明,AI 编程不再需要手工优化,与其依赖特定领域的优化策略,更有效的路径是扩展通用的强化学习技术,以实现最先进的 AI 竞赛编程能力。
#OpenAI
#大型推理模型
#强化学习
#编程能力
#人工智能
#竞赛编程
#IOI竞赛
#CodeForces
#新一代AI
分享
评论 0
0
nazha
4个月前
#分享 从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子,就是 CoT,在 Prompt 中包含类似 `Think step by step` 的短语,它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero 仅通过强化学习而没有初始 SFT 阶段进行训练。同时,也没有使用使用接受人类偏好的奖励模型,而是采用了准确性(用 LeetCode 编译器来验证代码结果,以及一个确定性系统来验证数学答案)和格式奖励(将模型的思考过程强制包裹在 `<think></think>` 之间)。 3. SFT + RL DeepSeek 使用 DeepSeek-R1-Zero 来生成冷启动(Cold Start)数据。使用此冷启动的数据,DeepSeek 通过 SFT 微调了该模型,然后是另一个 RL 阶段。为了防止 Language Mixing 的问题,在 RL 阶段引入了语言一致性奖励。 4. SFT + 蒸馏 与传统的模型蒸馏不同,DeepSeek 在小模型上(比如 Llama 8B、70B,Qwen 2.5 models)通过 DeepSeek-V3 和 DeepSeek-R1 生成的有监督数据,对小模型进行了微调。 其结果是蒸馏的小模型表现比 DeepSeek-R1 要弱,但和 DeepSeek-R1-Zero 差不多。 进一步,小模型纯 RL 和蒸馏的效果如何?DeepSeek 使用了 Qwen 32B 的模型作为作为对比。 有趣的结果是,对于小模型蒸馏比 RL 要更有效。
#DeepSeekR1
#推理模型
#训练方法
#计算资源
#CoT
#强化学习
分享
评论 0
0
宝玉
4个月前
深度解析ChatGPT与DeepSeek R1:强化学习如何让大模型学会“思考”? Andrej Karpathy 前几天发的“深度解析像 ChatGPT 的大语言模型“,实在是太长了点,我自己写的翻译软件一运行就崩溃,还要花点时间修复一下(很遗憾 AI 还搞不定),先挑了其中一节讲 DeepSeek R1 的翻译了一下,强化学习如何让大模型学会“思考”。 像 GPT-4o 这种属于传统的预训练和监督微调(SFT)模型,而 o1,DeepSeek R1 这种则属于强化学习(RL)训练模型,能让模型自发地进行更复杂、更具创造力的推理。模型在不断迭代中学会自我回溯、多角度思考,输出更完整的解题过程。 Andrej 对 DeepSeek R1 评价不错,虽然 OpenAI 是首先实现了 RLFT,但DeepSeek R1更公开透明,带来可复现的研究细节,权重可下载。 他也给了日常模型选择上的建议,如果你要解决高难度数学或编程问题,像 R1 这样的“思考型模型”更具优势,但相应的计算与时间成本更长,一些知识性或简单的咨询问题用 GPT-4o 这样的监督微调(SFT)模型就足够了。
#ChatGPT
#DeepSeekR1
#强化学习
#大模型
#Andrej Karpathy
分享
评论 0
0
orange.ai
4个月前
深度角色扮演模型 DeepSex 使用思维链和强化学习技术增强模型角色扮演,小说生成能,提升模型的创作能力。 四阶段进化架构: 增量预训练:注入0.4T Token 小说,使用16k上下文训练,增强文本连贯性 Tifa-SFT:融合全球Top4角色扮演模型Tifa的10万条高质量数据 CoT恢复训练:采用Deepseek-32B/671B数据重建推理能力 RL强化:保留发散性思维标签的同时优化生成质量 工程创新: 16k超长上下文训练 随机截断训练增强鲁棒性 8×H20 GPU全量微调 启示与后续: 我们在测试中发现,满血R1在角色扮演中输出内容比较发散,随机,导致此模型有相同倾向,对于角色扮演的影响还在研究中 输入内容相近的话语会导致向量重叠,然后重复输出,如“继续”,“还有”等无明显指向性话语 思维内容与正文关联性学习了满血R1的特点,发散比较严重,可能会有割裂感 针对以上问题,我们正在编写新的RL算法,初步计划剔除部分满血R1的内容,同时通过强化学习解决重复
#深度角色扮演
#DeepSex
#思维链
#强化学习
#模型创作
#小说生成
#预训练
#角色扮演模型
分享
评论 0
0
勃勃OC
5个月前
o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。显然r1的代码能力不如o3-mini。这表明DeepSeek并没有魔法,数据决定模型,RL也是。
#机器学习
#深度学习
#模型训练
#强化学习
#代码能力
#数据重要性
分享
评论 0
0
北美王路飞
5个月前
EP-11「工程与达尔文:DeepSeek 引爆新一轮 AI 革命」初码x王路飞 | DeepSeek | 强化学习 | 大模型 | 工程效率 ...
#DeepSeek
#AI革命
#强化学习
#大模型
#工程效率
分享
评论 0
0
✧ 𝕀𝔸𝕄𝔸𝕀 ✧
5个月前
deepseek就是个纯纯的小可爱,把强化学习这层窗户纸捅穿了,我看他妈的后面怎么买卡,大模型一旦走到强化学习阶段,对算力的需求会炸掉,千亿美金的数据中心只是起步。 那些喊着deepseek会减少算力需求的韭菜们发梦天,认为英伟达要崩盘了,他们后面会直接破大防。
#DeepSeek
#强化学习
#算力需求
#大模型
#数据中心
#英伟达
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞