#具身智能

3周前
今天听了大半天的智源大会具身智能和机器人头部公司的各种观点,也算是代表国内具身智能领域的绝对能力了,体感是很失望,大家还停留在单点突破上,场景和全局考虑突破门都还没进入: 1、数据层面:具身数据数据收集还没有解决数据缺少的问题,主要的三大类数据:互联网视频数据、物理仿真数据、真机数据收集(其中又分了第一视角、第二视角、第三视角数据),但数据量最大的互联网第三视角数据的利用率非常非常低,如何能够利用好互联网数据是具身智能领域gpt时刻来临的关键。 2、硬件机器人标准不统一:就像自动驾驶行业一样,各家有各家的标准,所以每个部件都不统一,对于收集关节、运动数据等造成极大的浪费和泛化障碍,这块需要一个类似于cuda之类的操作系统来同一行业,就像之前分享的ros系统,而这个ros必须要由头部公司来主导,比如未来小米造机器人等。 3、VLA+ROS的联动几乎没有走这个路线的,有一家北京人形机器人创新研究中心的唐老师路线有些突破,想做平台,思路是对的,但vla没有突破之前,短期内很难有平台中间件突破,就像语言模型时代大模型催生了中间件平台产生。 4、不过北京人形机器人创新研究中心唐老师提出的vlm/vla——>世界模型——>奖励模型rm的闭环,值得学习:通过vlm/vla来规划机器人任务、然后通过世界模型仿真机器人指令执行得到结果反馈,让rm模型来做评测选择最合适的路径,这倒是一个值得学习的思路。 5、全球目前比较紧缺的是vla模型,vla模型的发生紧缺的是数据,数据来源最大、利用率最低的是第三视角的互联网数据,如何解决这个问题是有人要寻找一种算法路径来学习互联网视频数据——>具身智能机器人数据的转化,这样才能完成gpt时刻的到来。 #智源大会 #vla模型 #具身机器人
3周前
近期交流了很多具身智能公司和机器人公司,包括机器人数据训练场等,对整体的产业链各方面做了整体的了解,得到一些体感和结论供大家参考: 1、具身智能领域还没有迎来gpt时刻,还处于局部优化阶段,大多数团队都是专注于电机、手臂、曲度、手抓能力等局部优化,全部优化团队非常缺少。 2、国内的大多数具身一线公司还没有进入VLA模型阶段,部分公司在尝试世界模型,但都集中在局部场景,精细度可以做到很高但场景泛化能力有限 3、比如群核科技在细分场景做的非常靠前,而且给出的3d设计可以直接用,像展位设计、装修设计、工厂3d建模生产排班等均可自动化,但还是偏向于局部场景。 4、VLA模型在国外有多家有一定的进展,Google的gemini robotic、figure01的模型等,多家在vla模型上都在尝试,国内也就智源在这个方向上有一些建树,其他家貌似还没有开始。 5、从我个人的观察和判断,未来还是需要多模态大模型公司实现从2d多模态到3d多模态突破,从而实现vla模型的突破,但是当下还没有看到哪家模型公司有苗头。 6、这里也呼吁国内的模型公司和团队要关注VLA模型这个方向,这个方向是抢占具身智能未来的关键一环,未来具身智能的三个关键要素:VLA模型+内化指令集的跨平台ROS+具身机器人材料部件。 #具身智能 #vla模型 #gemini
3个月前
这两天闹的沸沸扬扬的朱啸虎唱衰具身智能的言论部分认同: 1. 当前具身智能领域大都还在走传统的路线,犹如2023年之前AI1.0时代的NLP和CV路线,后来transformer出现后将原先语言和视觉路线干废。具身智能也需要经历一次这样的临界点,当前还处于1.0时代,未来VLA模型成熟后,必然会将门槛极大的降低下来,泛化性能增强。 2.当前国内的大多数具身智能公司,很多都是用国外开源的路线二开改来的没啥太强的门槛,泛化能力很差,包括头部几家机器人公司也是如此,这种路线不会持久,犹如元宇宙时代的数字人公司的性质。 3.VLA模型临界点过了之后,ROS和VLA模型协同后,那么整个具身智能领域会进入2.0新的阶段,就像数字人公司在大模型公司加持后,产生了更强的价值。 4.当前市面上的,具身智能公司有场景的公司微乎其微,因为泛化能力不行,针对场景的落地成本极高,大都需要定制,只有VlA成熟后,才能实现场景落地大爆发。 5.VLA模型上gemini和figure公司都弄了自己的VLA模型,国内智元说自己有,技术路线和商业路线不清晰,泡沫说实话太高,这点我认可朱啸虎。 6.至于大家会反驳宇树科技营收好,貌似很多人或者公司买就是为了拍视频装逼pr吧,不是实用性的消费,不进消费场景实际解决问题注定走不远。 #vla #具身智能