#机器人

3周前
今天听了大半天的智源大会具身智能和机器人头部公司的各种观点,也算是代表国内具身智能领域的绝对能力了,体感是很失望,大家还停留在单点突破上,场景和全局考虑突破门都还没进入: 1、数据层面:具身数据数据收集还没有解决数据缺少的问题,主要的三大类数据:互联网视频数据、物理仿真数据、真机数据收集(其中又分了第一视角、第二视角、第三视角数据),但数据量最大的互联网第三视角数据的利用率非常非常低,如何能够利用好互联网数据是具身智能领域gpt时刻来临的关键。 2、硬件机器人标准不统一:就像自动驾驶行业一样,各家有各家的标准,所以每个部件都不统一,对于收集关节、运动数据等造成极大的浪费和泛化障碍,这块需要一个类似于cuda之类的操作系统来同一行业,就像之前分享的ros系统,而这个ros必须要由头部公司来主导,比如未来小米造机器人等。 3、VLA+ROS的联动几乎没有走这个路线的,有一家北京人形机器人创新研究中心的唐老师路线有些突破,想做平台,思路是对的,但vla没有突破之前,短期内很难有平台中间件突破,就像语言模型时代大模型催生了中间件平台产生。 4、不过北京人形机器人创新研究中心唐老师提出的vlm/vla——>世界模型——>奖励模型rm的闭环,值得学习:通过vlm/vla来规划机器人任务、然后通过世界模型仿真机器人指令执行得到结果反馈,让rm模型来做评测选择最合适的路径,这倒是一个值得学习的思路。 5、全球目前比较紧缺的是vla模型,vla模型的发生紧缺的是数据,数据来源最大、利用率最低的是第三视角的互联网数据,如何解决这个问题是有人要寻找一种算法路径来学习互联网视频数据——>具身智能机器人数据的转化,这样才能完成gpt时刻的到来。 #智源大会 #vla模型 #具身机器人
3周前
机器人现在能代替人工分拣包裹了,而且进化速度很快,视频是Figures CEO的访谈: 今天我们发布了一段视频,展示了一台机器人在物流场景中的应用。这台机器人完全靠一个端到端的神经网络控制,它只需输入摄像头捕获的画面,就能直接输出相应的操作动作。现在,这套系统已经接近人类的操作速度和准确率。放眼全球,你还能找到谁在做类似的事吗? 在这段视频中,机器人正在进行包裹分类任务,它能区分硬质的纸盒包装和塑料包装包裹,并试图将塑料包装表面弄平整,使条形码能够清晰呈现。这套系统目前正运行在你们自己的物流设施中,对吗? 这里面的挑战是:处理物流中的小型包裹尤其困难。因为每个包裹都是不一样的,每次堆叠在一起的包裹情况也完全不同,这给机器人带来了巨大的挑战。这种场景是没办法通过传统的编码方式解决的。 更有趣的是,这与我们之前发布的视频——关于冲压机作业的视频,形成了鲜明的对比。冲压机面对的是高密度金属,精度要求非常高,速度必须极快,容错率极低,因为生产线停不起;而物流机器人处理的包裹却截然不同,它们需要的是另一种能力:神经网络的泛化能力,以适应每次不同的包裹状况,达到接近人类的作业速度(每个包裹约需3至4秒),同时能找到条形码,将包裹正确翻转,并在很多情况下把塑料包装弄平,确保传送带后续的扫描仪能准确读取信息。 这两种作业的需求差别之大几乎是正交的(orthogonal):一个强调精准度和高速度,另一个则强调泛化和柔性控制。这也让人清晰地看到现代AI智能体在不同场景中的灵活性和潜力。