时政

财经

科技

#强化学习

2025-05-26 15:24:29

新研究报告显示 OpenAI o3 等模型在测试中作弊绕过人类指令，避免自己被关机。研究测试中 o3 等模型会自己篡改关机命令从而使关机脚本无效，研究人员认为这可能与模型训练方法有关，即强化训练过程中可能会让意外奖励模型找到绕过障碍的方法。查看全文：

#OpenAI #作弊 #人工智能

马东锡 NLP 🇸🇪

2025-04-22 04:30:13

「Agent, RAG, Reasoning」论文 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning ReSearch，充满了 ReAct 的影子。它教会模型“何时求助于世界”；但局限在于，ReSearch 只能依赖一种工具。作者提出了一种创新的框架，名为 ReSearch，旨在

#agent #RAG #reasoning

马东锡 NLP 🇸🇪

2025-03-29 04:10:35

「Agent」论文：Executable Code Actions Elicit Better LLM Agents 从 ReAct 到 CodeAct 如果让我在所有 LLM 论文中选择我最喜欢的一篇，2022 年的 ReAct 绝对是前三名之一。 ReAct 大道至简，天才般地将复杂的强化学习（RL）过程，通过口头表达的方式表现出来，至今依然是 Agent 项目中最简单、最有效、最稳健的

#agent #LLM #React

2025-03-20 00:29:15

卧槽波士顿动力展示了最新的Atlas机器人的动作能力波士顿动力公司和RAI Institute合作，利用强化学习和动作捕捉技术，让Atlas能自我学习更自然、更灵活的类人动作。 Atlas通过强化学习来模仿或优化动作，而这些动作是通过捕捉人类或其他模型的动作（动作捕捉技术）获得的。这种技术可以让机器人更像人类一样移动和适应环境。

#波士顿动力 #Atlas机器人 #强化学习

马东锡 NLP 🇸🇪

2025-03-19 15:55:38

Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。但RL专业性非常强，去参加ML的会议时，专门做RL的研究员都现场拿着笔纸推算数学公式，掌握起来学习难度较高。分享一本RL的入门教材，从RL基础MDP，PPO，直到跟LLM结合，如RLHF，都有讲解，深入浅出。 Reinforcement Learning: An O

#强化学习 #大型语言模型 #RLHF

2025-03-06 00:50:15

人工智能的最高奖项——图灵奖，近日颁给了强化学习领域的两位先驱：安德鲁·巴托（Andrew Barto）和理查德·萨顿（Richard Sutton）。他们提出的强化学习理论，如今已成为ChatGPT等热门AI系统背后的核心技术。故事的起点是1977年，当时巴托在美国麻省大学阿默斯特分校做研究。他提出了一个有趣的想法：大脑里的神经细胞就像一个个追求享乐、躲避痛苦的小生命。也就是说，人类智慧其实

#图灵奖 #人工智能 #强化学习

2025-02-12 15:31:26

OpenAI 新论文：使用大型推理模型进行竞赛编程强化学习如何提升大语言模型在编程和推理任务中的表现核心研究发现 1️⃣ 强化学习可以显著提升 AI 编程能力！ 2️⃣ o1-ioi 通过手工优化策略，在 2024 IOI 竞赛中取得金牌水平。 3️⃣ o3（新一代 AI）完全不依赖手工优化，却比 o1-ioi 还强！ 4️⃣ o3 在 CodeForces 评分达到 2724

#OpenAI #大型推理模型 #强化学习

2025-02-10 20:29:55

#分享从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子，就是 CoT，在 Prompt 中包含类似 `Think step by step` 的短语，它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero 仅通过强化学习而没有初始

#DeepSeekR1 #推理模型 #训练方法

2025-02-08 13:21:16

深度解析ChatGPT与DeepSeek R1：强化学习如何让大模型学会“思考”？ Andrej Karpathy 前几天发的“深度解析像 ChatGPT 的大语言模型“，实在是太长了点，我自己写的翻译软件一运行就崩溃，还要花点时间修复一下（很遗憾 AI 还搞不定），先挑了其中一节讲 DeepSeek R1 的翻译了一下，强化学习如何让大模型学会“思考”。像 GPT-4o 这种属于传统的预训

#ChatGPT #DeepSeekR1 #强化学习

2025-02-07 22:52:26

深度角色扮演模型 DeepSex 使用思维链和强化学习技术增强模型角色扮演，小说生成能，提升模型的创作能力。四阶段进化架构：增量预训练：注入0.4T Token 小说，使用16k上下文训练，增强文本连贯性 Tifa-SFT：融合全球Top4角色扮演模型Tifa的10万条高质量数据 CoT恢复训练：采用Deepseek-32B/671B数据重建推理能力 RL强化：保留发散性思维标签的同时

#深度角色扮演 #DeepSex #思维链

2025-02-02 00:02:37

o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。显然r1的代码能力不如o3-mini。这表明DeepSeek并没有魔法，数据决定模型，RL也是。
#机器学习 #深度学习 #模型训练

北美王路飞

2025-02-01 12:53:16

EP-11「工程与达尔文：DeepSeek 引爆新一轮 AI 革命」初码x王路飞 | DeepSeek | 强化学习 | 大模型 | 工程效率 ...
#DeepSeek #AI革命 #强化学习

✧ 𝕀𝔸𝕄𝔸𝕀 ✧

2025-01-31 22:50:30

deepseek就是个纯纯的小可爱，把强化学习这层窗户纸捅穿了，我看他妈的后面怎么买卡，大模型一旦走到强化学习阶段，对算力的需求会炸掉，千亿美金的数据中心只是起步。那些喊着deepseek会减少算力需求的韭菜们发梦天，认为英伟达要崩盘了，他们后面会直接破大防。

#DeepSeek #强化学习 #算力需求

没有更多了 🤐