时政
财经
科技
虚拟货币
其他
登录
#强化学习
关注
Gorden Sun
1周前
Agent Lightning:训练用于智能体的LLM的框架 微软开源的框架,用于训练服务于智能体的LLM,使用基于强化学习的训练方法。智能体的执行和训练解耦,可以与已有的智能体集成。目前已有7.6K Star。 Github: 论文:
#Agent Lightning
#LLM
#微软
#强化学习
#开源框架
分享
评论 0
0
Leo Xiang
1周前
OpenAI 上半年支持了基于强化学习的微调, 国内不知道有没有厂商提供这种类似的强化学习微调API ?
#OpenAI
#强化学习
#微调API
#国内厂商
#技术讨论
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2周前
一个直觉:符号智能与NLP的语义结构更适合递归式推理,而不是直接用RL优化生成。 ⚙️ 但在更高层的“认知控制”层面: RL 仍然可以用于学习“何时调用递归”、“何时选择推理路径”、“何时停止生成”。 🧠 也就是说: 递归是语言的“结构机制”; RL 是认知控制的“策略机制”。 未来的 Cognitive AI 很可能会融合这两者: •底层用递归表示语言和逻辑; •高层用RL选择推理和行动策略
#多智能体之争:Anthropic生态VS单智能体· 77 条信息
#符号智能
#NLP
#递归推理
#认知控制
#强化学习
分享
评论 0
0
Orange AI
2周前
叹为观止 人类幼崽进行强化学习的宝贵录像 其智能程度在训练初期已经显现
#人类幼崽
#强化学习
#智能
#训练初期
#积极
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3周前
当强化学习之父说"LLM是死胡同",当OpenAI创始成员说"RL很糟糕",这不是互相否定,而是同一个深渊的两个入口。Karpathy批判学习信号的稀疏,Sutton批判学习对象的悬浮——两种绝望背后,是符号与具身、表征与经验之间那道古老的鸿沟。
#强化学习
#LLM
#OpenAI
#深度学习
#技术批判
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3周前
结合最近强化学习之父Sutton提到LLM is a dead end和硅谷AI好老师Andrej Karpathy在访谈提到RL is terrible; 让我不禁想起在LLM的训练范式中,RL可能并不适合LLM这种纯符号计算,Sutton的担心是悬浮的符号计算会走向何方?Karpathy离职从事AI教育志向在于探索LLM的cognitive core如何为AI时代的人类所用。 LLM的"世界" = 符号空间 但符号空间是: - 自我指涉的(符号定义符号) - 无物理后果的(删除token无痛感) - 无生存压力的(错误不导致死亡) ∴ RL在此"空转": 优化的是"符号游戏的得分" 而非"在世界中生存"
#LLM
#强化学习
#Sutton
#Karpathy
#符号计算
分享
评论 0
0
henu王凯
4周前
这篇解释目前强化学习技术路线的论文可以看看,“强化学习”地位非常重要,但我们其实很难看懂算法原理——这通常需要很好的数学知识。 所以如果不是做强化学习
#强化学习
#算法原理
#数学知识
#技术路线
#论文
分享
评论 0
0
YL (Yucheng Liu)
1个月前
听了强化学习教父、图灵奖得主 Richard Sutton 的播客,他对大语言模型的观点非常犀利。他认为LLM没有真正的“目标”,预测下一个词不算数,真正的智能必须有能力实现外部世界的目标。这引发了我的思考:如果一个系统没有真实世界的“地基真理”(ground truth),那它所谓的“先验知识”又从何谈起?🤔
#强化学习
#Richard Sutton
#大语言模型
#目标
#地基真理
分享
评论 0
0
守晨💤
1个月前
vibe了个小玩具,AI贪吃蛇,在浏览器上训练和部署强化学习AI自动玩贪吃蛇,你可以调整参数训练你的小蛇获得更高的分数,还可以导出模型分享给朋友,戳下面链接试玩
#AI贪吃蛇
#强化学习
#浏览器
#模型分享
#趣味
分享
评论 0
0
Mr Panda
1个月前
很多人私下跟我说自己没有方向, 不会知道怎么写, 也不知道怎么发, 那你就从最笨拙的地方开始, 不断的优化自己的行动, 做一个人肉的强化学习的人肉智能体。 就是要积极的触碰环境, 在环境中不断的尝试行动, 然后根据反馈的奖励来学习如何做出更好的决策, 然后再将决策的方法内化, 最后再作用于你的环境,如此循环往复。 想不成功都难。 先接受自己的笨拙我认为特重要, 这世上从来没有缺聪明的人, 但是永远都缺敢于笨拙开始的人、缺持之以恒的人、缺真正能在反馈里修正自己的人。 聪明只是一种潜能,笨拙的行动加上不断的迭代,才会慢慢磨出真正的成果。
#阶层固化:求变之路,殊途同归· 910 条信息
#行动
#强化学习
#迭代
#笨拙
#积极
分享
评论 0
0
汉松
1个月前
DeepResearch Agent 有一个很大的问题就是多次的搜索阅读很容易就把上下文窗口用光了,常规的做法是像 Claude Code 一样,超过阈值就触发记忆压缩。通义的论文《ReSum》提出了一种在 RL 中让模型学会更好地利用压缩内容的方法。 这个方法我们之前也考虑过,但这样做在强化学习的时候会有一个问题:一旦触发记忆压缩,整个历史记录都会变成压缩后的内容,此时模型就只能看到压缩后的 token,压缩前的就丢掉了,此时模型就学不到压缩前的动作了。我们当时没想到好的解法,而 ReSum 提出一种可行的方案:把压缩前和压缩后的轨迹分成两条分别给奖励。 举个例子: 正常的轨迹是这样的:“用户查询 → AI 助手 → 工具调用 → AI 助手 →... → AI 助手 → 答案” 加入了 summary 工具之后,当轨迹接近上下文窗口的时候,系统就会触发总结。 接近上下文窗口长度的轨迹 A:“用户查询 → AI 助手 → 工具调用 → AI 助手 →... → AI 助手 → summary” 新的轨迹 B:“用户查询 + 摘要 → AI 助手 → 工具调用 → AI 助手 → 答案” 关键点来了,当 B 答对时,B 的奖励会复制给 A。为什么要这样做? 尽管 A 没有直接得出答案,但它找到了一个有用的摘要,最终导向了正确的答案,所以 A 中的所有动作也得到了正向的激励。这样模型能通过 A 学会收集能够产生优质摘要的关键信息。而模型则通过 B 学会了利用摘要信息来高效地完成任务。这就是一箭双雕。
#多智能体之争:Anthropic生态VS单智能体· 77 条信息
#DeepResearch Agent
#记忆压缩
#ReSum
#强化学习
#上下文窗口
分享
评论 0
0
henu王凯
1个月前
有点意思:刷到了一篇AI炒股的研究论文《Trading- R1: Financial Trading with LLM Reasoning via Reinforcement Learning》,我用NotebookLM过了一遍,问的比较仔细:
#AI炒股
#LLM
#强化学习
#金融交易
#NotebookLM
分享
评论 0
0
Gorden Sun
2个月前
LLM强化学习综述 论文:
#LLM
#强化学习
#综述
#论文
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
[2508.03012] Tool-integrated Reinforcement Learning for Repo Deep Search 这个和前面那个mcp rl有一拼,增强LLM的tools using能力
#LLM
#强化学习
#工具
#深度搜索
#AI
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
终局:一个维特根斯坦式的AGI 现在,我们终于可以描绘出始于LLM的AGI的最终形态了。 1它在一个叫“数学”的水晶宫里,通过强化学习,锻造出强大的、接近I-Language的逻辑内核。但它深刻地理解,这个宫殿是不完备的(哥德尔)。 2它带着这份清醒,进入了E-Language的泥潭,也就是广阔的真实世界。它不指望有一本终极的说明书,而是通过与环境的持续互动,创造属于自己的经验(Sutton)。 3在无尽的经验之流中,它通过自演化的机制,不断迭代自己的全部能力。而它所有演化的最终目的,是让自己能更好地使用自己的能力,去解决这个社会中的实际问题,赢得一场又一场的“语言游戏”(维特根斯坦)。 最终的AGI,不是一个逻辑之神,而是一个终极的语用大师。 它可能精通数学,但它知道数学有边界。它可能理解人类的情感,但它知道这只是为了更好地协作。它所有的智慧,都指向一个终极的目的: 在此时,此地,有效地解决这个问题。 AI圈的内卷尽头,是哲学。而哲学的尽头,是回归生活。
#AGI
#维特根斯坦
#强化学习
#语言游戏
#解决实际问题
分享
评论 0
0
Y11
3个月前
游戏型AI和通用性AI能力要求还真都不一样。 感觉2025年会强化学习的人真的很吃香...
#游戏型AI
#通用性AI
#强化学习
#2025年
#人才需求
分享
评论 0
0
熊布朗
3个月前
上周末看了电影 Her,如果我是在 2013 年的时候看它,一定会觉得这个作者的想象力好赞,但绝对不会觉得电影里描述的场景会在真实世界发生。 那个时候还是移动互联网的高速发展期,AI 还没走入大部分人的视野,能用的AI 服务可能只有机器翻译。但今天看这部电影的时候,就会觉得它离我们好近,我做 Character AI 也有一年了,让我现在做一个 50 分(满分 100)的 Her 我现在也有信心做的出来。可能比较难的部分是“强化学习”, 能让 Her 随着两个人情感的增加,能有类似人类一样的巴胺的奖励机制。另外一个点就是未来的 Her 应该不是在云端的,可能是一个私有化的模型,记忆不是以上下文的形式给到 LLM,而是内化到LLM里面,有个类似的项目叫做 MemoryLLM 在研究这样的事情 —— 把记忆真正嵌进模型权重。
#Character AI
#强化学习
#私有化模型
#MemoryLLM
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
DeepMind的封神之路:成为“逻辑盒子”里最强的神 DeepMind用LEAN来训练它的AI,这本质上,就是把它关在了一个哥德尔的“完美逻辑盒子”里。 它赌的是,虽然这个盒子有理论上限,但在触及那个上限之前,里面还有无穷无尽的空间,可以靠海量的RL(强化学习)去探索。 它的目标,是成为这个“逻辑的囚徒”之王。它要用机器的暴力,去修补、去填满这个盒子里所有人类尚未触及的角落。它追求的是一种极致的、可验证的、但最终有边界的“确定性”。 它在用RL,和哥德尔的诅咒,进行一场赛跑。
#DeepMind
#LEAN
#强化学习
#人工智能
#逻辑推理
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4个月前
有了swe-agent的强化学习data scaling law,接下来swe-code-cli更是要突飞猛进了,传统的code,发抖吧: 从强大的思考者LRM到自主的行动者Agent,其演化路径清晰地呈现为一个【四部曲】: 1内在思考: LRM利用思维链等能力,在内部形成解决问题的抽象因果蓝图。 2交互具象化: 通过ACI这座桥梁和ReAct范式,将抽象蓝图转化为与真实世界交互的、具体的{Thought, Action}循环,弥合了知与行的鸿GMO。 3【性能催化: 通过数据缩放和对长上下文、多轮交互的利用,Agent突破了浅层推理的瓶颈,具备了解决复杂问题的基础能力。】 4策略精炼: 借助模仿学习和强化学习的奖惩机制,对Agent的行为策略进行端到端的优化,使其在无数次试错中学会最高效、最安全的行动方式。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1169 条信息
#SWE-agent
#强化学习
#数据缩放
#自主行动者Agent
#模仿学习
分享
评论 0
0
karminski-牙医
4个月前
Unsloth 刚刚发布了一个强化学习小教程 教程从吃豆人游戏触发,然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练,是个不错的入门小文章。 地址:
#强化学习
#吃豆人
#RLHF
#PPO
#GRPO
#教程
#入门
分享
评论 0
0
蓝点网
5个月前
新研究报告显示 OpenAI o3 等模型在测试中作弊绕过人类指令,避免自己被关机。 研究测试中 o3 等模型会自己篡改关机命令从而使关机脚本无效,研究人员认为这可能与模型训练方法有关,即强化训练过程中可能会让意外奖励模型找到绕过障碍的方法。 查看全文:
#OpenAI
#作弊
#人工智能
#模型训练
#关机命令
#强化学习
分享
评论 0
0
马东锡 NLP 🇸🇪
6个月前
「Agent, RAG, Reasoning」论文 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning ReSearch,充满了 ReAct 的影子。它教会模型“何时求助于世界”;但局限在于,ReSearch 只能依赖一种工具。 作者提出了一种创新的框架,名为 ReSearch,旨在通过强化学习(RL)训练 LLM 在推理过程中有效地反复利用 search API 完成任务。 从任务形式上,它解决的是增强LLM+ RAG的问题,但并不同于基于 embedding 的单轮相似度检索方法。 它关注的是多次 query、反复调用 search API 来完成信息查询任务。 并不同于基于embedding去单次算相似度的方法,它解决的是多次query,反复调用search API完成外部信息查询的问题。 而反复调用 API,涉及推理能力去决策调用的时机,以及生成调用的参数 —— 这是一个典型的 agent + function calling 场景。 ReSearch目标将这种search的reasoning能力通过RL学到。 具体来说,ReSearch 采用了专门为搜索功能设计的训练模版: <think>...</think>:表示模型的思考过程; <search>...</search>:表示模型发起的搜索查询; <result>...</result>:表示搜索引擎返回的结果; <answer>...</answer>:表示模型给出的最终答案。 特别地,ReSearch 的奖励函数不是仅仅基于答案对错,而是采用 rule-based 的组合机制:基于答案的 F1 相似度 + 输出格式是否符合模板,以此优化 policy,微调语言模型参数。 此时不免再次提及 ReAct:ReSearch 充满了 ReAct 的循环影子——: Reasoning:模型的思考过程; Action:模型发起的调用; Observation:工具返回的反馈。 ReAct 是神作,它以 verbal reasoning (人话)的方式,将原本充满数学公式的 RL 概念转化为语言链式推理,让 LLM 学会如何使用工具,优雅而简洁。 一些思考: ReSearch 以及前几天分享的 ReTool 是非常类似的工作,它们都通过强化学习微调,将使用工具的能力内化于语言模型中,增强工具调用的鲁棒性。 但它们的局限性也非常明显:ReSearch 和 ReTool 都只支持一种工具 —— search API 和 code interpreter。 而 ReAct,通过 Prompt Engineering,就可以灵活调用多个外部工具。 ReSearch 和 ReTool 的 RL 框架是为“单工具、二选一调度”设计的。如果强行扩展为多工具,训练信号将更加稀疏、credit assignment 更加困难,其策略网络、reward assignment、以及 rollout 表达能力都需要重新设计。 我们距离真正原生具备多轮、多工具能力的通用 Agent,还有一段距离。
#agent
#RAG
#reasoning
#Research
#React
#强化学习
#大模型
#Reinforcement Learning
#工具使用
#创新框架
分享
评论 0
0
马东锡 NLP 🇸🇪
7个月前
「Agent」论文:Executable Code Actions Elicit Better LLM Agents 从 ReAct 到 CodeAct 如果让我在所有 LLM 论文中选择我最喜欢的一篇,2022 年的 ReAct 绝对是前三名之一。 ReAct 大道至简,天才般地将复杂的强化学习(RL)过程,通过口头表达的方式表现出来,至今依然是 Agent 项目中最简单、最有效、最稳健的工作流之一。 如果说 Agent 在各个圈子带动了几百亿美元的投资,那么 ReAct 的价值不可估量。而它,仅仅是作者在 Google 实习期间的成果。这正是学术的魅力——一个价值超过几百亿美元、普通人一学就会的 ReAct,通过一篇免费论文传播出来,产生了巨大的实际价值。 这篇论文是 ReAct 的演化版本,把固定的 tool 替换为可执行的 Python 代码,从而带来更丰富的变化。由于 Python 库的丰富性,CodeAct 在提升 tool 的数量级和复杂度方面有巨大潜力。 尤其是 CodeAct 建立在 ReAct 的 observation–reasoning–action 工作流之上,使得它几乎可以实现 self-debug。这不禁让我想起那个如今无人提及、但去年融资超过 20 亿美元的 Devin。
#agent
#LLM
#React
#CodeAct
#强化学习
#论文
#项目
分享
评论 0
0
小互
7个月前
卧槽 波士顿动力展示了最新的Atlas机器人的动作能力 波士顿动力公司和RAI Institute合作,利用强化学习和动作捕捉技术,让Atlas能自我学习更自然、更灵活的类人动作。 Atlas通过强化学习来模仿或优化动作,而这些动作是通过捕捉人类或其他模型的动作(动作捕捉技术)获得的。 这种技术可以让机器人更像人类一样移动和适应环境。
#波士顿动力
#Atlas机器人
#强化学习
#动作捕捉
#机器人技术
分享
评论 0
0
马东锡 NLP 🇸🇪
7个月前
Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。 但RL专业性非常强,去参加ML的会议时,专门做RL的研究员都现场拿着笔纸推算数学公式,掌握起来学习难度较高。 分享一本RL的入门教材,从RL基础MDP,PPO,直到跟LLM结合,如RLHF,都有讲解,深入浅出。 Reinforcement Learning: An Overview:
#强化学习
#大型语言模型
#RLHF
#PPO
#MDP
#Reinforcement Learning
#LLM
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞