#人工智能

人工智能骗子们说:神经网络模拟的正是人脑的工作方式。但是,从那篇论文《all you need is attention》,到现在,谜底始终写在谜面上。从天文数字的语料中提炼出来的,就是注意力。大模型在生成“成功、乃是、失败、之”之后,它的所有注意力,都瞄准了那个“母”字。 这是凝固的注意力,是僵尸注意力。而人脑的注意力是:我让你闭上眼睛,不许低头的情况下,告诉我,你手腕上的表丢了没有。这时候,你调动你的注意力,开始感受你手腕上传来,表的重量,你告诉我,你没有丢掉你的表。 信息的洪流从未停止向你的大脑输入!我不问你的时候,你的皮肤上,由表的重量传递而来的微弱压力,和那个“戴着那块表的感觉”,从未停止向你的大脑发送信号。只不过,你的大脑,选择了忽略这些输入。 忽略!伟大的忽略。 而神经网络,会处理输入它的一切垃圾,每时每刻,全量处理每一个细节。你在提示词里输入的任何一个,垃圾小逗号,都会影响最终输出的走向。 人在火车上,那么吵的环境,竟然能睡着。人在旱厕里,闻久了臭味,竟然觉得,没那么臭了?那是因为,花多了不香,屎多了不臭——重复信号多了,则降低它的权重! 动态注意力,动态权重。动态注意力,动态权重。 相比之下,预训练是什么意思?是创造了一个,”臭就是永远臭,香就是永远香“的灵魂。说白了,创造傻子。
我刚读完李飞飞最新的万字长文,《从文字到世界:空间智能是人工智能的下一个前沿》。 最直观的感受是:我们都在为 AI 现在的能力着迷时,李飞飞指出了一个巨大的盲区。 现在的 AI,本质上是个活在黑暗中的话痨。 这篇文章,并不是一般的技术展望,而像是一份 AI 进化之路上缺失的拼图。 作为 ImageNet 的作者,她提出的空间智能(Spatial Intelligence),让我对“什么是智能这件事”重新思考。 给你分享几个击中我的点,希望也能给你带来一些新视角。 一、LLM 是博学的,但它视力不太好 这是文章中最让我震撼的一个比喻。 李飞飞说,现在的大语言模型(LLM)像是一个被关在黑暗房间里的博学者。 它们读过所有的书,能写出最华丽的诗句,甚至能生成极其逼真的视频。 但是,它们缺乏根基。 它们不知道把咖啡倒进杯子时,如果手抖倒歪了液体会洒出来。它们不知道在拥挤的人行道上,如何侧身避让一个匆匆路过的行人。它们只有语言的逻辑,没有物理的直觉。 这种直觉,就是空间智能。 我突然意识到,现在人们对 AI 的崇拜,其实是对语言能力的崇拜。 但对于在物理世界中生存的生物来说,语言是进化的最后一步,空间感知才是生存的基石。 二、进化的秘密:先有动,后有智 李飞飞在这里引入了一个生物学视角,非常精彩。 早在人类学会说话、建立文明之前,动物就已经具备了极高的智能。这种智能来源于感知与行动的循环。 文章里举了一个特别有画面感的例子:古希腊的埃拉托色尼。 他不是坐在书房里算出了地球周长,而是通过观察亚历山大城和塞恩城在夏至日正午影子的不同(这就是空间智能),结合几何学推算出来的。 还有沃森和克里克发现 DNA 双螺旋结构,不是靠写论文写出来的,而是靠摆弄金属板和导线,在三维空间里拼出来的。 这打破了我以前的一个认知:我总以为思维是抽象的。 但李飞飞在说,很多顶级的认知和创造,本质上是空间性的。如果你不能在脑海中旋转一个物体,不能理解物体之间的物理关系,你的智能就是残缺的。 现在的 AI,恰恰就缺了这一块。 三、从预测下一个词到预测下一个世界 这是李飞飞新公司 World Labs 正在做的事,叫做世界模型(World Models)。 跟现在的 Sora 或者 Runwway 生成视频是两码事。目前的视频生成模型,经常会出现“上一秒那个人还戴着帽子,下一秒帽子融化进头发里”这种恐怖谷效应。 为什么?因为模型不懂物理,它只是在堆砌像素。 李飞飞提出的世界模型,要求 AI 必须理解重力、理解光影、理解物体恒存性。 她提到的 Marble 项目让我很期待。 这不是简单的 3D 建模,也不仅仅是为了做游戏或电影,而是生成一个有物理法则的、互动的世界。 想象一下,如果我们要造一个照顾独居老人的机器人。这个机器人不能只是陪聊(LLM),它必须能看着老人的动作,预判他快要摔倒了,并在一瞬间冲过去扶住,这就需要极高精度的空间预测能力。 没有空间智能,机器人永远只能在工厂流水线上拧螺丝,进不了我们的家庭。 四、维特根斯坦的那句话 文章引用了维特根斯坦的一句名言:我的语言的界限,意味着我的世界的界限。 目前的 AI 被困在语言(和类似语言的代码/像素序列)里,所以它们的世界是有限的。 李飞飞的野心在于,她想让 AI 突破语言的边界,去触碰那个真实的、粗粝的、充满物理法则的世界。 这让我感到一种久违的兴奋,过去的几年,AI 圈儿更多都在卷文本,卷谁的参数大,谁的上下文长。 但李飞飞在提醒我们:文字只是现实的投影,而非现实本身。 如果说 ChatGPT 是让 AI 学会了读万卷书,那么空间智能就是让 AI 开始行万里路。 最后一点感触: 李飞飞在文末提到,她的动机始终是AI 必须增强人类,而非取代人类。 这不是一句空话,当她谈到机器人协助科学家做实验,或者帮助护理人员照顾病人时,那种技术理想主义的温度,你能切实的感受到。 空间智能的终局,不是创造一个超越我们的数字神灵,而是创造出一个伙伴。 他能真正理解我们所处的物理环境,能帮我们拿水杯,也能扶我们一把。 从文字到世界,这确实是 AI 最值得期待的下一个前沿。
grok分析小鹏机器人的遥遥领先之处 小鹏的IRON机器人采用高度拟人化的设计,其走路方式(如“猫步”步态)确实是当前人形机器人领域的尖端挑战,从技术上来看,难度相当高。下面我从几个关键维度拆解一下为什么难,以及小鹏是怎么攻克的(基于最新公开的技术细节)。 为什么技术难度高? 1. 平衡与重心控制:人类“猫步”行走强调髋部微妙摆动、重心前倾转移和节奏感,这要求机器人实时感知地面反馈、调整姿态。不同于轮式机器人,拟人双腿行走容易失稳,尤其在非平坦地形下。传统机器人(如早期Atlas)步态往往僵硬,误差一厘米就可能摔倒。小鹏IRON的步态误差控制在2毫米内,这得益于高精度IMU传感器和强化学习算法,但开发周期长(小鹏团队花了7年迭代)。 2. 关节自由度与仿生结构:IRON全身有82个自由度(早期版62个),手部22个自由度,使用行业最小的谐波关节(扭矩密度提升20%),模拟人类脊椎、肌肉和柔性皮肤。这让步态更流畅,但设计复杂:关节需轻量化(避免过重影响平衡),同时耐用(车规级标准)。相比特斯拉Optimus(约30自由度),IRON更“拟人”,但自由度越高,控制算法越烧脑——需要端到端大模型实时规划路径。 3. 感知与AI集成:行走不是孤立动作,还需融合视觉(720°鹰眼系统,从小鹏智驾复用)和决策。IRON用3颗自研图灵AI芯片(2250TOPS算力,是Optimus的15倍),结合VLT+VLA大模型,实现“像人一样思考的行走”。但AI训练数据海量,模拟人类韵律步态需海量仿真+实测,成本高企(小鹏压缩到50万/台以下,已属行业低)。 4. 实际挑战与争议:网友质疑“太像人,是不是藏真人”,小鹏用“一镜到底”视频自证(拉开拉链秀内部晶格肌肉、控制器)。这反映出拟人化是双刃剑:逼真但易疑。全球领先如波士顿动力也花10+年才做到跑跳,猫步这类“非实用”高阶步态研究更少,环境适应性(如坡地)仍需验证。