#VLM

为什么机器人看起来笨笨的?结合最近看的奇幻电视剧,“妖变人没有那么简单”,“钢铁变人“也是如此。 机器人最重要的两部分,头脑和身体。简单说他的笨笨,是在替代做人这件事情上,他的头脑差一点,身体也差一点。本文先说上半部分,头脑🧠。 头脑如何变聪明,需要天量的数据训练。机器人的语言模型既有VLM(视觉-语言模型)又有LLM(大语言模型)。 为什么机器人需要 VLM?因为语言模型没有眼睛,只能“听懂”但看不到世界。比如你说“帮我拿起桌上左边的水杯”,机器人必须“看见”才能行动。单靠视觉模型也不够,视觉模型能识别物体,但不会理解人类语言和意图。 VLM = 融合大脑和眼睛 人类指令(语言)+ 环境感知(视觉) → 统一转化成动作计划。 我们现在所习惯的自动驾驶事实上也是VLM。只是自动驾驶需要学习的数据少的多。毕竟人形机器人模仿人,他的应用场景多样性和复杂度都是下一个维度。 而在VLM训练上,机器人所需的数据量和实际的数据量仍有巨大的差距。现在产生这些数据的方式主要是“动作捕捉”和“VR远程操作”。这种数据采集方式成本极高+效率低,贡献的数据量也不够。 同时这些来自特殊采集方式的数据往往缺少“泛化性”。机器人训练常常在干净、可控的环境:桌子上放几个常见物体(瓶子、杯子、积木)。但现实里:杯子可能是半透明的、反光的、被纸巾挡住一半。家里/工厂环境有各种干扰(杂物、噪音、人走来走去)。训练数据缺少这种“长尾情况”,所以一旦环境变化,机器人就“笨”了。