#李飞飞

Rocky
3天前
#AI 究竟是“未来奇迹”还是“世纪泡沫”。最近这种讨论可谓是不绝于耳,尤其是昨天软银清仓了英伟达,更佳成为大家风口浪尖的讨论话题。 最近看到一个难得的 #AI 大佬圆桌讨论,英伟达CEO黄仁勋,前Meta首席AI科学家和图灵奖得主杨立昆,AI教母李飞飞,AI教父杰弗里·辛顿,图灵奖得主约书亚·本吉奥,英伟达首席科学家比尔·戴利,6位世界顶尖的 #AI 大佬们首次同台对话,精彩程度堪比神仙打架。 当主持人问到,“AI泡沫是否存在时”,这群最懂 #AI 的人,竟然给出了完全不同的答案。 第一阵营是以黄仁勋为代表的非泡沫派。黄仁勋举了个例子,在互联网泡沫时期,铺设的大部分光纤,都是没被点亮的“暗光纤”,这意味着,行业的供给远远超过了实际需求,但是现在,几乎每一块能找到的GPU,都在全负荷运行,这说明需求是真实存在的,同时他还认为,#AI 是一个需要工厂,来生产智能的新兴产业,而我们才刚处于这场智能大建设的开端。 英伟达首席科学家比尔戴利也认同这个观点,他认为我们才刚刚开始触及应用的表面,估计目前只达到了最终需求的1%,还远远满足不了市场的需求 和前面黄仁勋完全看好 #AI 不同,前Meta首席AI科学家杨立昆,给出了一个很微妙的答案,#AI 短期有泡沫,但长期来看,却不是。 为什么说长期来看并没有泡沫呢,他认为基于当前的大语言模型技术,还有大量的应用有待开发,这些应用足以证明目前在软件和基础设施上的所有投资是合理的。从这个角度看AI投资不是泡沫。 至于说为什么短期有泡沫,是因为他个人不相信,以当前大语言模型范式,AI能够演化到达到人类智能水平的说法,要不然怎么会到现在我们都还没造出一个跟猫一样聪明的机器人。AI的进步不能光靠基础设施投资和数据的堆量,而是需要取得一些根本性的突破。 李飞飞也给出她自己的独到看法,#AI 作为一个领域还非常年轻,物理学都已经发展了400多年,而AI还不满70年,有太多新领域等待开拓。但从市场角度来说,总会有其自身的动态和调整,这里其实在暗示AI会有短期波动。 同样的约书亚·本吉奥认为,过去的技术验证非常成功,长远看好AI发展,但是短期的期望落空会带来金融风险。所以短期还是需要留心。 黄仁勋在建设基础设施,杨立昆则呼吁寻找新路径。你觉得谁的观点,更接近 #AI 的未来,欢迎在评论区讨论。🧐
我刚读完李飞飞最新的万字长文,《从文字到世界:空间智能是人工智能的下一个前沿》。 最直观的感受是:我们都在为 AI 现在的能力着迷时,李飞飞指出了一个巨大的盲区。 现在的 AI,本质上是个活在黑暗中的话痨。 这篇文章,并不是一般的技术展望,而像是一份 AI 进化之路上缺失的拼图。 作为 ImageNet 的作者,她提出的空间智能(Spatial Intelligence),让我对“什么是智能这件事”重新思考。 给你分享几个击中我的点,希望也能给你带来一些新视角。 一、LLM 是博学的,但它视力不太好 这是文章中最让我震撼的一个比喻。 李飞飞说,现在的大语言模型(LLM)像是一个被关在黑暗房间里的博学者。 它们读过所有的书,能写出最华丽的诗句,甚至能生成极其逼真的视频。 但是,它们缺乏根基。 它们不知道把咖啡倒进杯子时,如果手抖倒歪了液体会洒出来。它们不知道在拥挤的人行道上,如何侧身避让一个匆匆路过的行人。它们只有语言的逻辑,没有物理的直觉。 这种直觉,就是空间智能。 我突然意识到,现在人们对 AI 的崇拜,其实是对语言能力的崇拜。 但对于在物理世界中生存的生物来说,语言是进化的最后一步,空间感知才是生存的基石。 二、进化的秘密:先有动,后有智 李飞飞在这里引入了一个生物学视角,非常精彩。 早在人类学会说话、建立文明之前,动物就已经具备了极高的智能。这种智能来源于感知与行动的循环。 文章里举了一个特别有画面感的例子:古希腊的埃拉托色尼。 他不是坐在书房里算出了地球周长,而是通过观察亚历山大城和塞恩城在夏至日正午影子的不同(这就是空间智能),结合几何学推算出来的。 还有沃森和克里克发现 DNA 双螺旋结构,不是靠写论文写出来的,而是靠摆弄金属板和导线,在三维空间里拼出来的。 这打破了我以前的一个认知:我总以为思维是抽象的。 但李飞飞在说,很多顶级的认知和创造,本质上是空间性的。如果你不能在脑海中旋转一个物体,不能理解物体之间的物理关系,你的智能就是残缺的。 现在的 AI,恰恰就缺了这一块。 三、从预测下一个词到预测下一个世界 这是李飞飞新公司 World Labs 正在做的事,叫做世界模型(World Models)。 跟现在的 Sora 或者 Runwway 生成视频是两码事。目前的视频生成模型,经常会出现“上一秒那个人还戴着帽子,下一秒帽子融化进头发里”这种恐怖谷效应。 为什么?因为模型不懂物理,它只是在堆砌像素。 李飞飞提出的世界模型,要求 AI 必须理解重力、理解光影、理解物体恒存性。 她提到的 Marble 项目让我很期待。 这不是简单的 3D 建模,也不仅仅是为了做游戏或电影,而是生成一个有物理法则的、互动的世界。 想象一下,如果我们要造一个照顾独居老人的机器人。这个机器人不能只是陪聊(LLM),它必须能看着老人的动作,预判他快要摔倒了,并在一瞬间冲过去扶住,这就需要极高精度的空间预测能力。 没有空间智能,机器人永远只能在工厂流水线上拧螺丝,进不了我们的家庭。 四、维特根斯坦的那句话 文章引用了维特根斯坦的一句名言:我的语言的界限,意味着我的世界的界限。 目前的 AI 被困在语言(和类似语言的代码/像素序列)里,所以它们的世界是有限的。 李飞飞的野心在于,她想让 AI 突破语言的边界,去触碰那个真实的、粗粝的、充满物理法则的世界。 这让我感到一种久违的兴奋,过去的几年,AI 圈儿更多都在卷文本,卷谁的参数大,谁的上下文长。 但李飞飞在提醒我们:文字只是现实的投影,而非现实本身。 如果说 ChatGPT 是让 AI 学会了读万卷书,那么空间智能就是让 AI 开始行万里路。 最后一点感触: 李飞飞在文末提到,她的动机始终是AI 必须增强人类,而非取代人类。 这不是一句空话,当她谈到机器人协助科学家做实验,或者帮助护理人员照顾病人时,那种技术理想主义的温度,你能切实的感受到。 空间智能的终局,不是创造一个超越我们的数字神灵,而是创造出一个伙伴。 他能真正理解我们所处的物理环境,能帮我们拿水杯,也能扶我们一把。 从文字到世界,这确实是 AI 最值得期待的下一个前沿。
Rocky
10个月前
您要了解 #AI Agent,这本书(论文)是每个人绕不过去的必读之物。李飞飞《AGENT AI》,这是我今年看过最具爽感和未来方向的书籍,并且全文理解不难,没有深邃的专业术语和算法逻辑,值得每一个普通人读一读,文末评论有全文链接。 我可以负责任的告诉大家:AI Agent 是人工智能中后期最值得投资的领域(无论是美股还是Web3领域),也是最贴近To C可以感知到的方向,对于老百姓来说,是最直接能接触到且可以大规模使用的领域。 正如它开篇论文描述的:AI Agent系统的概述,该系统能够在不同领域和应用中感知和行动。AI Agent是作为通向通用人工智能(AGI)的有前景的途径。AI Agent训练已经证明了在物理世界中对多模态理解的能力。它为与现实无关的训练提供了一个框架,通过利用生成式人工智能与多个独立数据源相结合。我们提出了 一个能够在许多不同领域和应用中感知和行动的代理人工智能系统的总体概述,作为通向 AGI的代理范式。 其中文章中着重提及了AI Agent在多模态人机交互(HCI)的技术现状、应用前景及未来发展方向,从中展现出的一些核心技术与创新性方向,是值得我们深度思考和挖掘的,不要让AI Agent 只停留在语音交互,视觉交互层面,它的范围更加广阔: 1. 多模态HCI的核心概念与意义 多模态HCI通过集成语音、文本、图像、触觉等多种信息模式,实现人与计算机之间的自然、灵活、高效交互。这一技术的核心目标是: • 提高交互的自然性与沉浸感。 • 拓展人机交互的场景适用性。 • 促进计算机理解人类多样化输入模式的能力。 2. 未来发展方向 文章中从五个研究领域进行了系统的梳理: 1️⃣大数据可视化交互 📢概念:将复杂数据转化为易于理解的图形化表示,通过多感知通道(视觉、触觉、听觉等)增强用户体验。 🔎进展: • 基于虚拟现实(VR)和增强现实(AR)的数据可视化探索; • 在医疗和科研领域中,通过触觉反馈(如力觉和振动反馈)帮助用户更好地理解数据分布。 📝应用: • 智能城市监控:通过动态热力图实时展示城市流量数据。 • 医疗数据分析:结合触觉反馈进行多维数据的探究。 2️⃣基于声场感知的交互 📢概念:利用麦克风阵列和机器学习算法分析环境中的声场变化,帮助实现非视觉化的人机交互。 🔎进展: • 声源定位技术的精度提升; • 噪声环境下的鲁棒性语音交互技术。 📝应用: • 智能家居:语音控制设备,无需接触即可完成任务。 • 助残技术:为视觉障碍用户提供基于声音的交互方式。 3️⃣混合现实实物交互 📢概念:通过混合现实技术(MR)将虚拟信息与物理世界交融,用户可使用现实中的物体操控虚拟环境。 🔎进展: • 基于物理触觉的虚拟物体交互优化; • 高精度物理-虚拟对象映射技术。 📝应用: • 教育培训:通过模拟现实环境进行沉浸式教学。 • 工业设计:利用虚拟原型进行产品验证。 4️⃣可穿戴交互 📢概念:通过智能手表、健康监测设备等可穿戴设备,采用手势、触摸或皮肤电子技术实现交互。 🔎进展: • 皮肤传感器的灵敏度和耐用性提升; • 多通道融合算法增强交互准确性。 📝应用: • 健康监控:心率、睡眠和运动状态的实时跟踪; • 游戏娱乐:通过可穿戴设备操控虚拟角色。 5️⃣人机对话交互 📢概念:研究语音识别、情感识别、语音合成等技术,让计算机更好地理解和响应用户的语言输入。 🔎进展: • 大语言模型的普及(如GPT等)极大提高对话系统的自然性; • 语音情感识别技术的准确率提升。 📝应用: • 客服机器人:支持多语言语音交互。 • 智能助理:个性化语音指令响应。 所以我们看到很多AI Agent 的项目,尤其是Web3领域的,大多还停留在人机对话交互的智能助理层面,比如24小时发推文,千人千面的AI语音聊天,情侣聊天等。但最近我们也观察到一些做智能穿戴的 #Depin 项目+ #AI 的结合,来提供身体健康数据领域的创新,比如戒指(具体哪一家我就不奶了,自己可以去查,也是 #SOL 链生态的),比如手表,比如吊坠等。这里面的机会比传统只做单一的 #AI 公链或者应用,来的更有价值和有趣,投资人也会更喜欢,毕竟我们投了2家,硬件+软件+AI,这将是一个潜力的方向! 3. 目前科技企业大力投入的领域 1. 拓展交互方式:探索新型交互手段,如嗅觉和温度感知等,进一步提升多模态融合的维度。 2. 优化多模态组合:设计高效、灵活的多模态组合方式,使不同模式之间能够更自然地协同工作。 3. 设备小型化:开发更轻便、更低功耗的设备以适应日常使用。 4. 跨设备分布式交互:提升设备间的互操作性,实现无缝的多设备交互。 5. 算法鲁棒性提升:特别是在开放环境下,提高多模态感知与融合算法的稳定性与实时性。 4. 值得投资的应用场景 • 医疗康复:通过语音、图像和触觉反馈,帮助患者进行康复训练与心理疏导。 • 办公教育:提供智能化办公助手和个性化教育平台,提升效率与体验。 • 军事仿真:结合混合现实技术,用于作战模拟与战术培训。 • 娱乐与游戏:打造沉浸式游戏与娱乐体验,增强用户与虚拟环境的互动感。 总结:李博士这篇文章,利用AI Agent未来落地的场景应用,系统性地梳理了多模态HCI的核心技术,并结合实际应用和未来研究方向,为 #AIAgent 的投资者指明了方向和投资的逻辑。这篇文章,可以说是2024年必读的AI书籍,让我更清晰地认识到多模态人机交互技术在推动未来智能化生活中的关键作用,揭示了它在开放环境和复杂场景下的巨大潜力。投资未来,才能把握财富!还是那句话:布局 #AI,学习 #AI,投资 #AI。刻不容缓!🧐