#阿里达摩院

Y11
6小时前
高端招聘:阿里达摩院招行为策略算法工程师(P7-P9) ----- 达摩院-行为策略算法工程师-具身智能 阿里集团 · 杭州 职位描述 参与具身智能机器人行为动作能力研发,包括但不限于:; 1. BFM 核心算法研发:参与构建和优化基于 forward-backward representation / successor feature 的无监督强化学习框架; 研究多任务行为潜空间学习(Behavioral Latent Space Learning),支持 reward / goal / motion 条件的统一控制策略; 探索 zero-shot / few-shot 任务泛化、latent-space tuning、自适应控制、硬件本体泛化等前沿方向; 2. 模仿学习与对比学习方法研究:基于 MoCap / tele-operation / 视频数据进行动作模仿、风格迁移与示范融合; 研究示范正则化(demonstration regularization)、分布匹配与判别器奖励(discriminator-based reward)机制; 3. 强化学习策略训练与评测:在 Mujoco / Isaac Gym / OmniIsaacLab 等环境中实现大规模并行训练; 优化 off-policy / unsupervised RL 算法的稳定性与样本效率; 构建 sim-to-real pipeline(包括 domain randomization、latent adaptation); 4. 策略-模型集成与系统验证:将训练好的策略集成到实际机器人平台(humanoid / mobile manipulator)中进行评测; 分析策略潜空间的语义结构及可解释性; 职位要求 必备背景:计算机、自动化、人工智能、机器学习、机器人学等相关专业,硕士及以上学历; 在强化学习、模仿学习、多任务策略学习或世界模型等方向有项目或论文经验; 技术能力要求:熟悉强化学习算法实现(SAC、TD; 3、PPO、DDPG、DIAYN、Dreamer、Diffusion Policy 等任意一类); 熟悉模仿学习 / 行为克隆 / 逆强化学习 等行为建模方法; 有独立实现或改进 RL / IL 训练框架的经验(PyTorch / JAX); 熟悉仿真平台(Mujoco / Isaac Gym / Bullet / Brax 等); 能阅读英文论文并复现研究结果; 加分项:参与过具身智能 / humanoid / manipulation 相关研究或比赛; 具备 forward-backward representation / successor feature / latent RL / world model 相关经验; 熟悉 transformer / diffusion / representation learning 在控制领域的应用; 有强化学习在真实机器人上部署的经验; ------ 报名地址详见: 搜索。