马东锡 NLP 🇸🇪2025-03-29 04:10:35「Agent」论文:Executable Code Actions Elicit Better LLM Agents 从 ReAct 到 CodeAct 如果让我在所有 LLM 论文中选择我最喜欢的一篇,2022 年的 ReAct 绝对是前三名之一。 ReAct 大道至简,天才般地将复杂的强化学习(RL)过程,通过口头表达的方式表现出来,至今依然是 Agent 项目中最简单、最有效、最稳健的#agent#LLM#React
小互2025-03-20 00:29:15卧槽 波士顿动力展示了最新的Atlas机器人的动作能力 波士顿动力公司和RAI Institute合作,利用强化学习和动作捕捉技术,让Atlas能自我学习更自然、更灵活的类人动作。 Atlas通过强化学习来模仿或优化动作,而这些动作是通过捕捉人类或其他模型的动作(动作捕捉技术)获得的。 这种技术可以让机器人更像人类一样移动和适应环境。#波士顿动力#Atlas机器人#强化学习
马东锡 NLP 🇸🇪2025-03-19 15:55:38Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。 但RL专业性非常强,去参加ML的会议时,专门做RL的研究员都现场拿着笔纸推算数学公式,掌握起来学习难度较高。 分享一本RL的入门教材,从RL基础MDP,PPO,直到跟LLM结合,如RLHF,都有讲解,深入浅出。 Reinforcement Learning: An O#强化学习#大型语言模型#RLHF
宝玉2025-03-06 00:50:15人工智能的最高奖项——图灵奖,近日颁给了强化学习领域的两位先驱:安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton)。他们提出的强化学习理论,如今已成为ChatGPT等热门AI系统背后的核心技术。 故事的起点是1977年,当时巴托在美国麻省大学阿默斯特分校做研究。他提出了一个有趣的想法:大脑里的神经细胞就像一个个追求享乐、躲避痛苦的小生命。也就是说,人类智慧其实#图灵奖#人工智能#强化学习
小互2025-02-12 15:31:26OpenAI 新论文:使用大型推理模型进行竞赛编程 强化学习如何提升大语言模型在编程和推理任务中的表现 核心研究发现 1️⃣ 强化学习可以显著提升 AI 编程能力! 2️⃣ o1-ioi 通过手工优化策略,在 2024 IOI 竞赛中取得 金牌水平。 3️⃣ o3(新一代 AI)完全不依赖手工优化,却比 o1-ioi 还强! 4️⃣ o3 在 CodeForces 评分 达到 2724#OpenAI#大型推理模型#强化学习
nazha2025-02-10 20:29:55#分享 从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子,就是 CoT,在 Prompt 中包含类似 `Think step by step` 的短语,它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero 仅通过强化学习而没有初始 #DeepSeekR1#推理模型#训练方法
宝玉2025-02-08 13:21:16深度解析ChatGPT与DeepSeek R1:强化学习如何让大模型学会“思考”? Andrej Karpathy 前几天发的“深度解析像 ChatGPT 的大语言模型“,实在是太长了点,我自己写的翻译软件一运行就崩溃,还要花点时间修复一下(很遗憾 AI 还搞不定),先挑了其中一节讲 DeepSeek R1 的翻译了一下,强化学习如何让大模型学会“思考”。 像 GPT-4o 这种属于传统的预训#ChatGPT#DeepSeekR1#强化学习
orange.ai2025-02-07 22:52:26深度角色扮演模型 DeepSex 使用思维链和强化学习技术增强模型角色扮演,小说生成能,提升模型的创作能力。 四阶段进化架构: 增量预训练:注入0.4T Token 小说,使用16k上下文训练,增强文本连贯性 Tifa-SFT:融合全球Top4角色扮演模型Tifa的10万条高质量数据 CoT恢复训练:采用Deepseek-32B/671B数据重建推理能力 RL强化:保留发散性思维标签的同时#深度角色扮演#DeepSex#思维链
勃勃OC2025-02-02 00:02:37o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。显然r1的代码能力不如o3-mini。这表明DeepSeek并没有魔法,数据决定模型,RL也是。#机器学习#深度学习#模型训练
北美王路飞2025-02-01 12:53:16EP-11「工程与达尔文:DeepSeek 引爆新一轮 AI 革命」初码x王路飞 | DeepSeek | 强化学习 | 大模型 | 工程效率 ... #DeepSeek#AI革命#强化学习
✧ 𝕀𝔸𝕄𝔸𝕀 ✧2025-01-31 22:50:30deepseek就是个纯纯的小可爱,把强化学习这层窗户纸捅穿了,我看他妈的后面怎么买卡,大模型一旦走到强化学习阶段,对算力的需求会炸掉,千亿美金的数据中心只是起步。 那些喊着deepseek会减少算力需求的韭菜们发梦天,认为英伟达要崩盘了,他们后面会直接破大防。#DeepSeek#强化学习#算力需求