#强化学习

Y11
1个月前
高端招聘:阿里达摩院招行为策略算法工程师(P7-P9) ----- 达摩院-行为策略算法工程师-具身智能 阿里集团 · 杭州 职位描述 参与具身智能机器人行为动作能力研发,包括但不限于:; 1. BFM 核心算法研发:参与构建和优化基于 forward-backward representation / successor feature 的无监督强化学习框架; 研究多任务行为潜空间学习(Behavioral Latent Space Learning),支持 reward / goal / motion 条件的统一控制策略; 探索 zero-shot / few-shot 任务泛化、latent-space tuning、自适应控制、硬件本体泛化等前沿方向; 2. 模仿学习与对比学习方法研究:基于 MoCap / tele-operation / 视频数据进行动作模仿、风格迁移与示范融合; 研究示范正则化(demonstration regularization)、分布匹配与判别器奖励(discriminator-based reward)机制; 3. 强化学习策略训练与评测:在 Mujoco / Isaac Gym / OmniIsaacLab 等环境中实现大规模并行训练; 优化 off-policy / unsupervised RL 算法的稳定性与样本效率; 构建 sim-to-real pipeline(包括 domain randomization、latent adaptation); 4. 策略-模型集成与系统验证:将训练好的策略集成到实际机器人平台(humanoid / mobile manipulator)中进行评测; 分析策略潜空间的语义结构及可解释性; 职位要求 必备背景:计算机、自动化、人工智能、机器学习、机器人学等相关专业,硕士及以上学历; 在强化学习、模仿学习、多任务策略学习或世界模型等方向有项目或论文经验; 技术能力要求:熟悉强化学习算法实现(SAC、TD; 3、PPO、DDPG、DIAYN、Dreamer、Diffusion Policy 等任意一类); 熟悉模仿学习 / 行为克隆 / 逆强化学习 等行为建模方法; 有独立实现或改进 RL / IL 训练框架的经验(PyTorch / JAX); 熟悉仿真平台(Mujoco / Isaac Gym / Bullet / Brax 等); 能阅读英文论文并复现研究结果; 加分项:参与过具身智能 / humanoid / manipulation 相关研究或比赛; 具备 forward-backward representation / successor feature / latent RL / world model 相关经验; 熟悉 transformer / diffusion / representation learning 在控制领域的应用; 有强化学习在真实机器人上部署的经验; ------ 报名地址详见: 搜索。
汉松
3个月前
DeepResearch Agent 有一个很大的问题就是多次的搜索阅读很容易就把上下文窗口用光了,常规的做法是像 Claude Code 一样,超过阈值就触发记忆压缩。通义的论文《ReSum》提出了一种在 RL 中让模型学会更好地利用压缩内容的方法。 这个方法我们之前也考虑过,但这样做在强化学习的时候会有一个问题:一旦触发记忆压缩,整个历史记录都会变成压缩后的内容,此时模型就只能看到压缩后的 token,压缩前的就丢掉了,此时模型就学不到压缩前的动作了。我们当时没想到好的解法,而 ReSum 提出一种可行的方案:把压缩前和压缩后的轨迹分成两条分别给奖励。 举个例子: 正常的轨迹是这样的:“用户查询 → AI 助手 → 工具调用 → AI 助手 →... → AI 助手 → 答案” 加入了 summary 工具之后,当轨迹接近上下文窗口的时候,系统就会触发总结。 接近上下文窗口长度的轨迹 A:“用户查询 → AI 助手 → 工具调用 → AI 助手 →... → AI 助手 → summary” 新的轨迹 B:“用户查询 + 摘要 → AI 助手 → 工具调用 → AI 助手 → 答案” 关键点来了,当 B 答对时,B 的奖励会复制给 A。为什么要这样做? 尽管 A 没有直接得出答案,但它找到了一个有用的摘要,最终导向了正确的答案,所以 A 中的所有动作也得到了正向的激励。这样模型能通过 A 学会收集能够产生优质摘要的关键信息。而模型则通过 B 学会了利用摘要信息来高效地完成任务。这就是一箭双雕。