RynnVLA-002：整合的视觉-语言-行动和世界模型阿里达摩院开源的模型，整合了VLA的世界模型。世界模型用于生成场景图片，VLA模型用于生成动作，同时也支撑世界模型生成图片。除了用于可交互的世界场景外，更适用于机器人任务。在评测数据集的表现上，接近闭源模型。模型：

#VLA模型 #世界模型 #阿里达摩院 #机器人任务 #开源模型

相关新闻

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3个月前

#这个AGI冬天有点冷我的直觉，deepmind把GenAI在数字内容或者数字世界里推到一个新高度； Anthropic仍旧在LLM原生符号智能的路上探索… 产业价值和实体经济效应要看DeepSeek在纯符号智能如math和低成本长上下文的开源模型！

Y11

3个月前

高端招聘：阿里达摩院招行为策略算法工程师（P7-P9） ----- 达摩院-行为策略算法工程师-具身智能阿里集团 · 杭州职位描述参与具身智能机器人行为动作能力研发，包括但不限于：； 1. BFM 核心算法研发：参与构建和优化基于 forward-backward representation / successor feature 的无监督强化学习框架；研究多任务行为潜空间学习（Beh

木遥

3个月前

另一个 Gemini Nano Banana Pro 仍然搞不定的问题是复杂的光学比如下面这个 prompt：画一个玻璃酒杯，里面有小半杯红酒。一个年轻女性端着酒杯凝视着红酒，酒杯的杯壁上倒映出女性的脸。感觉需要世界模型的突破才行。

Gorden Sun

3个月前

Gemini 3就是世界模型，等今晚（最晚明晚）nano banana 2和Gemini Flash 3发布，还得接着震惊😨

Orange AI

3个月前

李飞飞团队的世界模型 Marble 上线了一张图解锁一个小宇宙有点酷，特别适合 VR 设备玩这个太烧 GPU了，我的电脑有点烫手。。。也许 Apple 应该收购他们