2025-06-07 21:42:27
今天听了大半天的智源大会具身智能和机器人头部公司的各种观点,也算是代表国内具身智能领域的绝对能力了,体感是很失望,大家还停留在单点突破上,场景和全局考虑突破门都还没进入: 1、数据层面:具身数据数据收集还没有解决数据缺少的问题,主要的三大类数据:互联网视频数据、物理仿真数据、真机数据收集(其中又分了第一视角、第二视角、第三视角数据),但数据量最大的互联网第三视角数据的利用率非常非常低,如何能够利用好互联网数据是具身智能领域gpt时刻来临的关键。 2、硬件机器人标准不统一:就像自动驾驶行业一样,各家有各家的标准,所以每个部件都不统一,对于收集关节、运动数据等造成极大的浪费和泛化障碍,这块需要一个类似于cuda之类的操作系统来同一行业,就像之前分享的ros系统,而这个ros必须要由头部公司来主导,比如未来小米造机器人等。 3、VLA+ROS的联动几乎没有走这个路线的,有一家北京人形机器人创新研究中心的唐老师路线有些突破,想做平台,思路是对的,但vla没有突破之前,短期内很难有平台中间件突破,就像语言模型时代大模型催生了中间件平台产生。 4、不过北京人形机器人创新研究中心唐老师提出的vlm/vla——>世界模型——>奖励模型rm的闭环,值得学习:通过vlm/vla来规划机器人任务、然后通过世界模型仿真机器人指令执行得到结果反馈,让rm模型来做评测选择最合适的路径,这倒是一个值得学习的思路。 5、全球目前比较紧缺的是vla模型,vla模型的发生紧缺的是数据,数据来源最大、利用率最低的是第三视角的互联网数据,如何解决这个问题是有人要寻找一种算法路径来学习互联网视频数据——>具身智能机器人数据的转化,这样才能完成gpt时刻的到来。 #智源大会 #vla模型 #具身机器人
2025-06-07 21:42:27
2025-06-07 19:17:16
2025-06-07 17:27:45