Gorden Sun

Gorden Sun

0 关注者

2小时前

RynnVLA-002:整合的视觉-语言-行动和世界模型 阿里达摩院开源的模型,整合了VLA的世界模型。世界模型用于生成场景图片,VLA模型用于生成动作,同时也支撑世界模型生成图片。除了用于可交互的世界场景外,更适用于机器人任务。在评测数据集的表现上,接近闭源模型。 模型:

相关新闻