#世界模型

我刚读完李飞飞最新的万字长文,《从文字到世界:空间智能是人工智能的下一个前沿》。 最直观的感受是:我们都在为 AI 现在的能力着迷时,李飞飞指出了一个巨大的盲区。 现在的 AI,本质上是个活在黑暗中的话痨。 这篇文章,并不是一般的技术展望,而像是一份 AI 进化之路上缺失的拼图。 作为 ImageNet 的作者,她提出的空间智能(Spatial Intelligence),让我对“什么是智能这件事”重新思考。 给你分享几个击中我的点,希望也能给你带来一些新视角。 一、LLM 是博学的,但它视力不太好 这是文章中最让我震撼的一个比喻。 李飞飞说,现在的大语言模型(LLM)像是一个被关在黑暗房间里的博学者。 它们读过所有的书,能写出最华丽的诗句,甚至能生成极其逼真的视频。 但是,它们缺乏根基。 它们不知道把咖啡倒进杯子时,如果手抖倒歪了液体会洒出来。它们不知道在拥挤的人行道上,如何侧身避让一个匆匆路过的行人。它们只有语言的逻辑,没有物理的直觉。 这种直觉,就是空间智能。 我突然意识到,现在人们对 AI 的崇拜,其实是对语言能力的崇拜。 但对于在物理世界中生存的生物来说,语言是进化的最后一步,空间感知才是生存的基石。 二、进化的秘密:先有动,后有智 李飞飞在这里引入了一个生物学视角,非常精彩。 早在人类学会说话、建立文明之前,动物就已经具备了极高的智能。这种智能来源于感知与行动的循环。 文章里举了一个特别有画面感的例子:古希腊的埃拉托色尼。 他不是坐在书房里算出了地球周长,而是通过观察亚历山大城和塞恩城在夏至日正午影子的不同(这就是空间智能),结合几何学推算出来的。 还有沃森和克里克发现 DNA 双螺旋结构,不是靠写论文写出来的,而是靠摆弄金属板和导线,在三维空间里拼出来的。 这打破了我以前的一个认知:我总以为思维是抽象的。 但李飞飞在说,很多顶级的认知和创造,本质上是空间性的。如果你不能在脑海中旋转一个物体,不能理解物体之间的物理关系,你的智能就是残缺的。 现在的 AI,恰恰就缺了这一块。 三、从预测下一个词到预测下一个世界 这是李飞飞新公司 World Labs 正在做的事,叫做世界模型(World Models)。 跟现在的 Sora 或者 Runwway 生成视频是两码事。目前的视频生成模型,经常会出现“上一秒那个人还戴着帽子,下一秒帽子融化进头发里”这种恐怖谷效应。 为什么?因为模型不懂物理,它只是在堆砌像素。 李飞飞提出的世界模型,要求 AI 必须理解重力、理解光影、理解物体恒存性。 她提到的 Marble 项目让我很期待。 这不是简单的 3D 建模,也不仅仅是为了做游戏或电影,而是生成一个有物理法则的、互动的世界。 想象一下,如果我们要造一个照顾独居老人的机器人。这个机器人不能只是陪聊(LLM),它必须能看着老人的动作,预判他快要摔倒了,并在一瞬间冲过去扶住,这就需要极高精度的空间预测能力。 没有空间智能,机器人永远只能在工厂流水线上拧螺丝,进不了我们的家庭。 四、维特根斯坦的那句话 文章引用了维特根斯坦的一句名言:我的语言的界限,意味着我的世界的界限。 目前的 AI 被困在语言(和类似语言的代码/像素序列)里,所以它们的世界是有限的。 李飞飞的野心在于,她想让 AI 突破语言的边界,去触碰那个真实的、粗粝的、充满物理法则的世界。 这让我感到一种久违的兴奋,过去的几年,AI 圈儿更多都在卷文本,卷谁的参数大,谁的上下文长。 但李飞飞在提醒我们:文字只是现实的投影,而非现实本身。 如果说 ChatGPT 是让 AI 学会了读万卷书,那么空间智能就是让 AI 开始行万里路。 最后一点感触: 李飞飞在文末提到,她的动机始终是AI 必须增强人类,而非取代人类。 这不是一句空话,当她谈到机器人协助科学家做实验,或者帮助护理人员照顾病人时,那种技术理想主义的温度,你能切实的感受到。 空间智能的终局,不是创造一个超越我们的数字神灵,而是创造出一个伙伴。 他能真正理解我们所处的物理环境,能帮我们拿水杯,也能扶我们一把。 从文字到世界,这确实是 AI 最值得期待的下一个前沿。
宝玉
3周前
这篇文章确实是指出了当前 LLM 存在的问题,但解决方案并不见得可行,另外这文章实在太长了点。 如果几句话总结一下,这篇文章主要就是想讲清楚:强化学习(RL)的教父、图灵奖得主 Richard Sutton 到底在担心什么?为什么我们现在的 Agent 这么“笨”?以及,我们该如何跨过这道鸿沟? Sutton 就是“AI 圣经”《苦涩的教训》(The Bitter Lesson) 的作者,他的理念就是: > 在人工智能领域,长远来看,依赖大规模计算的通用方法(如搜索和学习)最终将胜过依赖人类专家知识的复杂方法。 按理说,他应该对 GPT-5、Claude 这样的大模型拍案叫绝才对。 但他没有。相反,他直言不讳:今天所有的 LLM(大语言模型)都是一条死路。 为什么?Sutton 的原话:LLM 只是在模仿人会“说什么”,而不是在理解世界是“如何运转”的。 这个观点引发了很多讨论,AI 大神 Andrej Karpathy 前几天在播客中也对此有回应和深入探讨(参见: )。 > “我以前就说过,人类不使用强化学习。我认为人类的学习方式完全不同。强化学习比普通人想的要糟糕得多。强化学习很烂。只不过,我们以前有的其他算法比它还要烂得多罢了。” 两位大神都在揭露一个真相: 我们今天津津乐道的“推理器”(Reasoner),离一个真正的“智能体”(Agent)还差得远。而这个鸿沟,就叫“持续学习”。 1. 为什么 Sutton 说 LLM 是“死路”? Sutton 的批评主要集中在两点。 批评一:LLM 是“鹦鹉”,不是“物理学家” Sutton 说,LLM 根本不是真正的“世界模型”。 - 真正的世界模型:能预测“如果我做了A,世界会发生B”。比如,我松开手(动作A),杯子会掉地上摔碎(结果B)。这是对因果和物理规律的理解。 - LLM 在做什么:它在预测“如果我问了A,人类会回答B”。比如,我问“杯子掉了会怎样?”,它会回答“会摔碎”。 看到区别了吗?LLM 是在模仿一个“观察者”会如何描述这个世界,而不是作为“参与者”去理解这个世界的规律。它学的是“人会说什么”,而不是“世界会怎样”。 批评二:现在的强化学习“笨得可以” Sutton 的另一个批评是,我们现在主流的 RL 算法(比如 PPO)样本效率低到发指,而且它们只从“奖励”中学习,不从“观察”中学习。 这话说得有点绕,用原文里的一个例子,你一下就懂了: > 假设我们开发一个 AI Agent,帮用户打电话给 Xfinity(一家运营商)客服。 > > 第一次尝试:Agent 打过去,客服说:“我需要您的信用卡后四位来验证身份。” Agent 没有这个信息,任务失败,挂断。 > > 好了,问题来了: > > - 传统 RL Agent (PPO):它只知道这次尝试失败了(Reward = 0)。它不知道为什么失败。客服明明已经告诉它答案了(“需要信用卡后四位”),但这个信息是“观察”(Observation),不是“奖励”(Reward)。所以,这个笨蛋 Agent 只能下次再试,再失败……可能要试几百次,某一次瞎猫碰上死耗子,它碰巧提供了信用卡信息,成功了(Reward = 1),它这才“学会”了。 > > - 人类:第一次被告知需要信用卡信息,立刻就记住了。下次打电话前就会主动要这个信息。 这就是差距。人类能从环境的丰富反馈(观察)中学习,而现在的 RL 算法大多是“无模型”的,它们只关心“我这么做能不能拿分”,而无视了环境给出的所有其他宝贵信息。 2. “无限上下文”的陷阱:为什么 RAG (检索增强生成)不是学习? 很多人可能会反驳:“没关系,我们现在有超长上下文(Long Context)了!我把 Agent 第一次失败的经验(“客服要信用卡后四位”)直接放进下一次任务的提示词里不就行了?” 这就是目前大多数 Agent 的做法,包括 In-Context Learning(上下文学习)或者 RAG。 但这是对“学习”最大的误解。 把历史记录塞进上下文,不叫“学习”,这叫“开卷考试”。 原文中打个比方: > 让你计算 100 个案例中黑猫和白猫的比例。 > > - 真正的学习(压缩):你看完一遍,在脑子里总结出一个结论:“90只黑猫,10只白猫”。下次再问你,你直接给出答案。 > - 长上下文(RAG):你把 100 个案例的原始记录全堆在桌上。每次有人问你,你就重新把这 100 个案例再数一遍,然后得出结论。 这种方式极其低效,因为知识没有被提炼和压缩。你只是在进行一次又一次的重复检索,而不是把经验内化成了“规律”或“知识”。 AK 在前几天播客里面有一个引起很多人共鸣的结论:人类记性差,这不是 Bug,反而是 Feature(特性)。 正因为我们记不住所有原始细节,才被迫去提炼、总结、压缩知识,找出事物背后的规律。而这个“压缩”和“提炼”的过程,才是学习的本质。 3. “新员工”的困境:为什么 Agent 没法“上班”? 这就引出了一个核心问题:为什么现在的 Agent 解数学题比99%的人都强,但你让它去你公司干个具体工作,它却一塌糊涂? 你可以这么想:你找一个再聪明的天才,不培训就让他来你公司上班,他能干好吗? 大概率不能。因为他不知道: - 公司的代码规范 (Coding Style) - 公司的业务逻辑和黑话 - 团队的协作流程 - 哪些是不能碰的隐形红线 这些知识,绝大部分是非公开的、特定的、隐性的,你没法用一个简短的 prompt 教会它。 人类是怎么做的?在工作中持续学习。 这就带出了 Sutton 坚信的“大世界假设”(Big World Hypothesis):世界上的信息是无限的,模型不可能在预训练阶段就学完所有东西。你必须在与具体环境的交互中不断学习新知识。 而很多 LLM 派持有的是“小世界假设”:世界是复杂的,但规律是简洁的。只要模型足够大(比如 GPT-5),就能掌握绝大部分重要知识,不需要再学了。 显然,现实世界更符合“大世界”假设。 4. 怎样才算“真学习”?从“奖励”到“预测” 既然必须持续学习,而传统 RL 又那么笨(只认 Reward),那该怎么办? 原文作者结合实践,提出了一个非常有启发的改进思路,我把它称为“双 LoRA”策略。(LoRA 是一种高效微调技术,你可以理解为给大模型打上一个小小的“能力补丁”) 这个策略的核心是:在学习“怎么做对”(Policy)的同时,也要学习“世界会怎样”(World Model)。 回到那个 Xfinity 客服的例子: 1. LoRA 1 (策略补丁):它还是从 Reward 学习。任务失败,Reward = 0,它学不到东西。 2. LoRA 2 (世界模型补丁):它不关心 Reward,它的唯一任务是预测环境的下一个反馈。当客服说“我需要信用卡后四位”时,这个补丁会因为“预测失败”(它没料到客服会说这个)而产生一个 loss,然后它就会更新自己,学会“哦,原来打电话给 Xfinity,对方会要信用卡信息”。 看,这就是一种时序差分学习(TD-Learning)。Agent 不再是只看重“得分”的偏科生,还成了能“理解”环境反馈的好学生。 效果是天差地别的: - 传统 RL:要试几百次才能学会。 - 双 LoRA:只要 1、2 个 step 就能学会。 这,才开始有点“持续学习”的样子了。 5. 另一个“致命”瓶颈:AI 为什么反应这么慢? 解决了学习效率,还有一个大问题:现在的 Agent 交互起来为什么那么“卡”? 明明模型的输入输出速度(token/s)都比人类快得多,为什么我们总觉得它反应迟钝? 作者认为根源在于一个僵化的“ReAct 循环”:观察 → 思考 → 行动。 现在的 Agent 都是这个死循环: 1. 观察(听):必须等你把话说完,看到句号了,它才开始下一步。 2. 思考:开始处理你的话,进行推理。 3. 行动(说):把思考完的结果一口气说出来。 但人类根本不是这样工作的! 人类是“事件驱动”的,我们的“听、想、说”是交错进行的 (interleaved): - 边听边想:你刚说开头,我就开始思考和预测你后面要说什么了。等你把话说完,我可能已经想好答案了。 - 边想边说:如果我没想好,我会先说点“嗯……”、“让我想想啊……”这样的“填充词”,在说这些话的同时,我的大脑在高速进行下一步思考。 人类充分利用了所有“间隙”在思考,所以交互体验才如此流畅。 未来的 Agent 必须抛弃僵化的 ReAct 循环,转向这种“边听边想边说”的事件驱动架构。这对于语音助手、机器人、甚至 AI 帮你打游戏都至关重要。 对于这点我觉得虽然“ReAct 循环”,但是实现起来是最简单直接的,作者所说的那种思路看起来很好,但真要实施当前技术未必做的到。 当然很多事情还是得要加上时间维度,有时候并不能用现在的眼光来看这些问题。 至少当前 AI Agent 存在的问题是客观存在的: - 一个真正的 Agent,其核心价值不在于它“知道多少”,而在于它“能学多快”。 - Agent 必须要有持续学习的能力,能从丰富的“观察”中学习世界模型 - “ReAct 循环”很慢,Agent 也应该想人一样能具有“边听边想边说”的实时架构
向阳乔木
1个月前
宝玉
1个月前
转译:一篇新的名为《通用智能体包含世界模型》(General agents contain world models)的论文论文给出了严格的数学证明:智能体想要变得聪明,就必须建立一个关于其所处世界的模型——无论我们是否在程序里这样要求它。 这证明,我们长期以来梦想的那条通往通用人工智能的“无模型”之路,可能从一开始就想反了。 多年来,人工智能领域一直存在一个巨大的争论:我们是需要为 AI 智能体 明确构建“世界模型”(就像在脑海里对环境进行模拟推演),还是说,智能可以从简单的试错中自发涌现(即“无模型”方法)? “无模型” (model-free) 的想法一度非常吸引人,因为对真实世界进行建模实在是太难了。然而,这项新发现告诉我们,这份苦差事,谁也躲不掉。 核心发现:强大的智能体必然自带世界模型 General agents contain world models 这篇名论文,其核心发现是一个严谨的数学证明。 它指出:任何一个能够以有限的失败率完成复杂、多步骤任务的智能体,都必然在内部学习到了一个精确的环境预测模型。 简单来说就是:如果一个 AI 擅长做长远规划,那么它的行为本身,就已经包含了模拟其世界所需要的全部信息。 它表现得越好(犯错越少),或者它能处理的任务链条越长(目标深度越深),它内部的世界模型就必须越精确。 “隐藏款”能力:世界模型是涌现出来的 这件事最有趣的地方在于,这个世界模型是一种隐藏的能力。 它不是你必须明确写进代码里的东西,而是 AI 为了获得通用能力,在训练过程中不得不产生的副产品。为了高效地完成任务,智能体被“逼上梁山”,不得不去学习世界运转的规律。 那么,研究人员是如何证明这一点的呢?方法出奇地简单。 他们设计了一种算法,通过给智能体提出“二选一”的复杂目标来“审问”它。智能体的每一次抉择,都暴露了它对“哪条路更可能成功”的内在预测。通过这种方式,研究人员就能反向推导出它内部模型中的概率。 这对我们意味着什么? 这个发现彻底改变了我对“黑箱”AI 的看法。那种想通过“无模型捷径”直达通用人工智能 (AGI) 的想法,现在看来是行不通了。世界建模这项艰苦的工作无法避免,它只是以一种不易察觉的方式,在神经网络内部悄然发生了。 最实际的影响是什么?安全与可解释性 (interpretability)。 这篇论文从理论上保证了,我们能从任何一个足够强大的智能体中提取出这个隐藏的世界模型,而方法仅仅是观察它的行为策略。这意味着,我们可以打开一个不透明的系统,拿出它的世界“蓝图”来进行审查。 从更宏观的视角看,这项研究可能会统一整个领域。与其再争论“基于模型 vs. 无模型”路线,未来的焦点可以转移到如何构建、提取和利用这些必然存在的世界模型上。 它也为我们在大语言模型 (LLM) 中观察到的“涌现能力” (emergent capabilities) 提供了一个严谨的解释。 同时,它也引出了一系列新问题: • 今天这些基础模型内部隐含的世界模型究竟长什么样? • 它们的精确度有多高? • 我们能否利用这种提取方法来调试它们,从而在有害行为发生前就及时阻止? 探索才刚刚开始。 说到底,这篇论文为一个古老的想法提供了数学上的定论:一个智能体不仅仅是拥有一个世界模型——从某种意义上说,它本身就是一个模型。 这不再仅仅是一个架构上的选择,它看起来更像是通用智能的一条基本定律。
池建强
3个月前
一文看懂谷歌 Genie 3:AI 生成世界 这一周对 AI 的用户和开发者来说,绝对是劲爆的一周。Cloud4 上新,OpenAI 连发两款开源模型,接着发布了 GPT 5。但 GPT 5 没有震撼我,真正让我震撼的,是谷歌 DeepMind 团队发布的 Genie 3 世界模型。那种感觉,有点像当年第一次见到 ChatGPT 的时刻,心跳加速,眼前一亮。 Genie 3 是谷歌 DeepMind 团队发布的第三代世界模型。它最大的特点是可以通过自然语言,实时生成一个动态、可交互的虚拟环境。你可以像玩游戏一样在这个世界里自由探索、互动,画面达到 720p 分辨率、每秒 24 帧,并且能持续几分钟保持场景和物理的一致性。比如你输入“在下雨的森林里漫步”,Genie 3 就能立刻生成一个逼真的雨林世界,你可以在里面自由移动,环境会根据你的行为实时变化。 它还能模拟真实世界的物理规律,比如水流、光影、天气变化,甚至能生成复杂的生态系统和历史场景。你还可以用文本提示改变世界事件,比如让天气突然转晴、添加新的角色或物体。这种“可提示的世界事件”让虚拟世界的可玩性和想象空间大大提升。​⁠ Meta 首席 AI 科学家杨立昆一直认为 GPT 并不是通往 AGI 的终极路径,世界模型才是。 那什么是世界模型?就是能够理解世界的物理规律,能够预测下一个环境、下一个画面会发生什么。当你让 AI 在这个世界里“运行”时,它能做出反应,这叫世界模型。 这次发布的宣传片一开头,就是多重宇宙的既视感,各种画面轮番上阵。我们看到的,并不是游戏,也不是视频,而是一个个可以生成的世界。这些世界,我们可以用一句话创造,世界生成后,还可以在里面行走、移动,系统会给你反馈,你能看到更多的画面和场景。 最关键的是,它的“一致性”做得非常好。现在展示的画面分辨率是 720P,帧率 24fps。在移动过程中,无论左看右看,还是绕一圈再回来,画面都和之前保持一致。这说明它有“记忆”能力——这非常关键。人之所以能感知世界的连贯性,本质上就是因为有记忆。如果 AI 也能在生成过程中拥有记忆,这个世界就真的能“建立”起来。 视频里讲到了一个刷房子的例子,让人印象深刻:你在墙上刷上蓝色涂料,转身去别的地方,再转回来,墙上的痕迹还在。这说明它记住了你的操作。而且整个生成过程,每一步移动时的画面都不是提前渲染好的 3D,而是实时生成的,这就有意思了。 再比如玩游戏时,它能生成无限多的场景。我们现在玩的游戏,世界都是提前搭好的“模”。但如果是生成式的,而且始终保持一致性,那就能创造一个全新的世界。 用户可以通过自然语言实时对系统做出干预,包括时间地点人物事件等等。 与前代产品相比,这次发布的 Genie 3 在分辨率、实时交互、场景一致性等方面都有质的飞跃。它不仅适合做游戏、动画、小说场景的生成,更被视为未来训练智能体(AI agent)的理想平台。比如,研究人员可以让机器人在 Genie 3 生成的世界里反复练习各种任务,极大提升 AI 的学习效率和泛化能力。​⁠ Genie 1 是 2024 年 2 月发布的,当时团队发了一篇论文,数据集是 20 万小时的互联网公开游戏数据。用大量无标注的游戏数据训练,生成了一个 110 亿参数的模型。那时的模型还很简陋,生成的画面一看就很粗糙,但已经有了初步的交互形态,可以玩,可以转动视角等等。 2024 年 12 月,Genie 2 发布,分辨率提升到 360P,画面和交互性都在持续进步。 刚发布的就是 Genie 3 了。 这个想象空间还是非常大的,以后也许做游戏直接使用 prompt 生成一个游戏。在游戏里,我们还可以随时修改和设计游戏角色,内容,玩法等等。就像现在人人可以 vibe coding 一样,也许未来人人也可以成为游戏设计师。 除了游戏,我们还可以学习各种历史场景,模拟危险救援,实现模型推演,做各种现实世界里没法做的模拟训练和预测,想想是不是很刺激? 目前 Genie 3 还处在初级阶段,只能支持几分钟的连续互动,动作空间和多智能体交互能力有限,地理精度也尚未完全还原真实世界。但即便如此,它已经被视为生成式 AI 和虚拟世界建模领域的一次重大突破,未来有望在教育、科研、娱乐等多个领域落地应用。 这个方向,我感觉已经跑通了。也许很快,国内的大厂就会跟进,或者说,相关技术已经在酝酿之中。
去年我在加州住了几个月,与研究机器人理论的朋友讨论最新的技术发展和可投资的机会,许多人同意,目前类人机器人遇到最大的问题是缺乏训练数据,换言之,我们需要大量的模拟世界创造的数据,我们可以将模拟数据的创造者称为世界模型。 最近我在海岛度假,阅读「盲视」这本小说,想起去年这段经历,似乎有了一些新的启发。人类驾驶员在学习驾驶车辆时往往并不花费太多时间,而神经网络却需要大量的视频数据训练,这之间的差别在哪里? 我想,也许人类学习此类技能,并不使用我们真正的神经网络思考,而利用低级神经中枢进行反射训练。大脑在其中的作用,可能并非决策,而是处理与识别五感传递的信息。换句话说,当我们开车时,我们使用了大脑的自动驾驶功能,我们看见,却没真正使用看见的信息,相反的,我们用感受与反射替代大脑的决策,因为大脑不参与多数的决策,我们使用「盲视」实现了「忘我」的驾驶。 人类的大脑中也存在世界的模型,当我们关注周遭的事物时,我们并不往外看,而是向内观。大脑对世界的理解影响了我们的决策,世界对大脑输入的信息又影响了这座模型的形成。成长的过程中,对自我概念的理解也形成在这座模型中,当然,每个人的世界模型会有许多的差异,因为这仅仅是对客观世界的模拟,对世界存在的模拟,创造了「我存在」的幻觉。 从这个角度看,世界模型并不能解决机器人适应所有的人类课题,但 AI 的世界模型,一定是没有「自我」这一幻觉或者副作用的,佛教理论中,将人类众生看成五蕴的组合,肉身和它的运动也是各种缘起的果,就是将人体看成是一部反射的机器,大脑产生的识与意也是机器处理的结果。对更纯粹的机器人来说,无我是更自然的理论。 诸行无常,诸法无我,这是不是说明机器人都证入涅槃,脱离世间之苦了呢?这真是个极好的问题,我把这问题记在此处,留给有缘人去思考吧。
AIGCLINK
5个月前
近期交流了很多具身智能公司和机器人公司,包括机器人数据训练场等,对整体的产业链各方面做了整体的了解,得到一些体感和结论供大家参考: 1、具身智能领域还没有迎来gpt时刻,还处于局部优化阶段,大多数团队都是专注于电机、手臂、曲度、手抓能力等局部优化,全部优化团队非常缺少。 2、国内的大多数具身一线公司还没有进入VLA模型阶段,部分公司在尝试世界模型,但都集中在局部场景,精细度可以做到很高但场景泛化能力有限 3、比如群核科技在细分场景做的非常靠前,而且给出的3d设计可以直接用,像展位设计、装修设计、工厂3d建模生产排班等均可自动化,但还是偏向于局部场景。 4、VLA模型在国外有多家有一定的进展,Google的gemini robotic、figure01的模型等,多家在vla模型上都在尝试,国内也就智源在这个方向上有一些建树,其他家貌似还没有开始。 5、从我个人的观察和判断,未来还是需要多模态大模型公司实现从2d多模态到3d多模态突破,从而实现vla模型的突破,但是当下还没有看到哪家模型公司有苗头。 6、这里也呼吁国内的模型公司和团队要关注VLA模型这个方向,这个方向是抢占具身智能未来的关键一环,未来具身智能的三个关键要素:VLA模型+内化指令集的跨平台ROS+具身机器人材料部件。 #具身智能 #vla模型 #gemini