#VLM

Fiona ❤️& ✌️

19小时前

为什么机器人看起来笨笨的？结合最近看的奇幻电视剧，“妖变人没有那么简单”，“钢铁变人“也是如此。机器人最重要的两部分，头脑和身体。简单说他的笨笨，是在替代做人这件事情上，他的头脑差一点，身体也差一点。本文先说上半部分，头脑🧠。头脑如何变聪明，需要天量的数据训练。机器人的语言模型既有VLM（视觉-语言模型）又有LLM（大语言模型）。为什么机器人需要 VLM？因为语言模型没有眼睛，只能“听懂”但看不到世界。比如你说“帮我拿起桌上左边的水杯”，机器人必须“看见”才能行动。单靠视觉模型也不够，视觉模型能识别物体，但不会理解人类语言和意图。 VLM = 融合大脑和眼睛人类指令（语言）+ 环境感知（视觉） → 统一转化成动作计划。我们现在所习惯的自动驾驶事实上也是VLM。只是自动驾驶需要学习的数据少的多。毕竟人形机器人模仿人，他的应用场景多样性和复杂度都是下一个维度。而在VLM训练上，机器人所需的数据量和实际的数据量仍有巨大的差距。现在产生这些数据的方式主要是“动作捕捉”和“VR远程操作”。这种数据采集方式成本极高+效率低，贡献的数据量也不够。同时这些来自特殊采集方式的数据往往缺少“泛化性”。机器人训练常常在干净、可控的环境：桌子上放几个常见物体（瓶子、杯子、积木）。但现实里：杯子可能是半透明的、反光的、被纸巾挡住一半。家里/工厂环境有各种干扰（杂物、噪音、人走来走去）。训练数据缺少这种“长尾情况”，所以一旦环境变化，机器人就“笨”了。

#机器人 #VLM #数据训练 #泛化性 #人工智能