#阿里达摩院

3个月前

RynnVLA-002：整合的视觉-语言-行动和世界模型阿里达摩院开源的模型，整合了VLA的世界模型。世界模型用于生成场景图片，VLA模型用于生成动作，同时也支撑世界模型生成图片。除了用于可交互的世界场景外，更适用于机器人任务。在评测数据集的表现上，接近闭源模型。模型：

#VLA模型 #世界模型 #阿里达摩院 #机器人任务 #开源模型

3个月前

高端招聘：阿里达摩院招行为策略算法工程师（P7-P9） ----- 达摩院-行为策略算法工程师-具身智能阿里集团 · 杭州职位描述参与具身智能机器人行为动作能力研发，包括但不限于：； 1. BFM 核心算法研发：参与构建和优化基于 forward-backward representation / successor feature 的无监督强化学习框架；研究多任务行为潜空间学习（Behavioral Latent Space Learning），支持 reward / goal / motion 条件的统一控制策略；探索 zero-shot / few-shot 任务泛化、latent-space tuning、自适应控制、硬件本体泛化等前沿方向； 2. 模仿学习与对比学习方法研究：基于 MoCap / tele-operation / 视频数据进行动作模仿、风格迁移与示范融合；研究示范正则化（demonstration regularization）、分布匹配与判别器奖励（discriminator-based reward）机制； 3. 强化学习策略训练与评测：在 Mujoco / Isaac Gym / OmniIsaacLab 等环境中实现大规模并行训练；优化 off-policy / unsupervised RL 算法的稳定性与样本效率；构建 sim-to-real pipeline（包括 domain randomization、latent adaptation）； 4. 策略-模型集成与系统验证：将训练好的策略集成到实际机器人平台（humanoid / mobile manipulator）中进行评测；分析策略潜空间的语义结构及可解释性；职位要求必备背景：计算机、自动化、人工智能、机器学习、机器人学等相关专业，硕士及以上学历；在强化学习、模仿学习、多任务策略学习或世界模型等方向有项目或论文经验；技术能力要求：熟悉强化学习算法实现（SAC、TD； 3、PPO、DDPG、DIAYN、Dreamer、Diffusion Policy 等任意一类）；熟悉模仿学习 / 行为克隆 / 逆强化学习等行为建模方法；有独立实现或改进 RL / IL 训练框架的经验（PyTorch / JAX）；熟悉仿真平台（Mujoco / Isaac Gym / Bullet / Brax 等）；能阅读英文论文并复现研究结果；加分项：参与过具身智能 / humanoid / manipulation 相关研究或比赛；具备 forward-backward representation / successor feature / latent RL / world model 相关经验；熟悉 transformer / diffusion / representation learning 在控制领域的应用；有强化学习在真实机器人上部署的经验； ------ 报名地址详见：搜索。

#阿里达摩院 #行为策略算法工程师 #具身智能 #强化学习 #机器人