时政
财经
科技
虚拟货币
其他
登录
#阿里达摩院
关注
Gorden Sun
2小时前
RynnVLA-002:整合的视觉-语言-行动和世界模型 阿里达摩院开源的模型,整合了VLA的世界模型。世界模型用于生成场景图片,VLA模型用于生成动作,同时也支撑世界模型生成图片。除了用于可交互的世界场景外,更适用于机器人任务。在评测数据集的表现上,接近闭源模型。 模型:
#VLA模型
#世界模型
#阿里达摩院
#机器人任务
#开源模型
分享
评论 0
0
Y11
6小时前
高端招聘:阿里达摩院招行为策略算法工程师(P7-P9) ----- 达摩院-行为策略算法工程师-具身智能 阿里集团 · 杭州 职位描述 参与具身智能机器人行为动作能力研发,包括但不限于:; 1. BFM 核心算法研发:参与构建和优化基于 forward-backward representation / successor feature 的无监督强化学习框架; 研究多任务行为潜空间学习(Behavioral Latent Space Learning),支持 reward / goal / motion 条件的统一控制策略; 探索 zero-shot / few-shot 任务泛化、latent-space tuning、自适应控制、硬件本体泛化等前沿方向; 2. 模仿学习与对比学习方法研究:基于 MoCap / tele-operation / 视频数据进行动作模仿、风格迁移与示范融合; 研究示范正则化(demonstration regularization)、分布匹配与判别器奖励(discriminator-based reward)机制; 3. 强化学习策略训练与评测:在 Mujoco / Isaac Gym / OmniIsaacLab 等环境中实现大规模并行训练; 优化 off-policy / unsupervised RL 算法的稳定性与样本效率; 构建 sim-to-real pipeline(包括 domain randomization、latent adaptation); 4. 策略-模型集成与系统验证:将训练好的策略集成到实际机器人平台(humanoid / mobile manipulator)中进行评测; 分析策略潜空间的语义结构及可解释性; 职位要求 必备背景:计算机、自动化、人工智能、机器学习、机器人学等相关专业,硕士及以上学历; 在强化学习、模仿学习、多任务策略学习或世界模型等方向有项目或论文经验; 技术能力要求:熟悉强化学习算法实现(SAC、TD; 3、PPO、DDPG、DIAYN、Dreamer、Diffusion Policy 等任意一类); 熟悉模仿学习 / 行为克隆 / 逆强化学习 等行为建模方法; 有独立实现或改进 RL / IL 训练框架的经验(PyTorch / JAX); 熟悉仿真平台(Mujoco / Isaac Gym / Bullet / Brax 等); 能阅读英文论文并复现研究结果; 加分项:参与过具身智能 / humanoid / manipulation 相关研究或比赛; 具备 forward-backward representation / successor feature / latent RL / world model 相关经验; 熟悉 transformer / diffusion / representation learning 在控制领域的应用; 有强化学习在真实机器人上部署的经验; ------ 报名地址详见: 搜索。
#阿里达摩院
#行为策略算法工程师
#具身智能
#强化学习
#机器人
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞