LLM已死?强化学习教父认为大语言模型是条死路。 说这个暴论的人叫理查德·萨顿(Richard Sutton),强化学习创始人之一。 他的观点很直接:LLM不是基础人工智能,它只是AI领域的一阵潮流。 真正的基础AI应该是强化学习。 观点很激进,但他给出的理由值得认真想。 第一个致命问题:没有目标的"智能" 萨顿抛出了一个质问:没有目标,还能叫智能吗? 他引用约翰·麦卡锡定义,智能的本质是 "实现目标能力的计算部分"。 按这个标准,LLM有什么问题呢? LLM的所谓"目标"只是预测下一个词。 你给它一段文字,它告诉你接下来最可能出现什么词。 但这算目标吗? 萨顿说得很直白:Token 自己跑到你面前,你预测Token,但你根本影响不了它们。 这不是关于外部世界的目标,这仅仅是文字接龙游戏。 没有目标,就没有"正确"的定义。 什么叫做对的事情? 在强化学习里,答案很清楚:能给你带来奖励的事情。 但LLM呢?它连对错的标准都是模糊的。 第二个硬伤:没有真实的世界模型 LLM擅长什么?模仿人类。 它能模仿人怎么说话,怎么写作,甚至怎么思考。 但萨顿说:模仿语言,不等于理解世界。 LLM能预测一个人会说什么,但它预测不了将会发生什么。 这个区别太重要了。 真正的世界模型应该让你能够预测行为的后果。 比如,我把杯子推下桌子,它会掉到地上摔碎。 这是对物理世界的理解。 但LLM呢?它只知道"人们通常会说杯子会摔碎",这是两码事。 更关键的是,LLM不会从意外中学习。 假设你预测某件事会发生A,结果发生了B。 一个真正理解世界的系统会说:"咦,我错了,我需要调整我的模型。"但LLM不会。 它没有这种"意外"的概念,因为模型从来不是在预测真实世界,它只是在预测训练数据里人们会怎么说。 萨顿的总结很犀利:LLM从训练数据中学习,不是从经验中学习。 经验是什么?是你做了某件事,然后看到实际发生了什么。 这种第一手的互动,才是真正学习的来源。 第三个悖论:可扩展性的陷阱 萨顿写过一篇著名的文章叫《苦涩的教训》(The Bitter Lesson)。 核心思想:历史反复证明,依赖人类知识的方法最终都会输给纯粹依靠计算和学习的方法。 很多人觉得LLM正是这个教训的最新例证。 你看,用海量数据和算力训练出来的模型,不就超越了传统的规则系统吗? 但萨顿说:等着瞧,LLM最终会成为这个教训的反面教材。 为什么?因为LLM本质上还是在依赖人类知识。 它学的是人类写的文字,说的话,做的事。 这些都是人类知识的结晶。 萨顿认为,真正具有可扩展性的方法是什么? 是系统自己去尝试,自己去观察什么有效,什么无效。 不需要任何人告诉它对错,它通过与世界的互动自己学会。 这就是强化学习的核心:主体有目标,主体采取行动,主体观察结果,主体调整策略。 这个循环可以无限持续,不断进化。 而LLM呢?它的学习在训练结束那一刻就停止了。 它没法在真实世界里持续学习,因为它根本不知道怎么与世界互动。 LLM就像一个语言模仿大师。 它能完美背诵人类所有的剧本和对话,你问它什么,它都能给你一个听起来很像样的回答。 但它缺少什么?缺少行动者的能力。 它不知道自己想要什么(没有目标)。 也不知道说这些话在真实世界里会产生什么后果(没有世界模型)。 它只是一个超级复杂的文字接龙机器。 真正的智能应该是什么样? 应该是一个主体,它有自己的目标,它能与世界互动,它从每次互动中学习,它不断调整自己的策略去更好地实现目标。 这才是萨顿眼中的"基础AI"。 萨顿的观点不一定全对,但他提的问题值得思考。 也许LLM不会"死",它们在很多应用场景下依然有价值。 但如果我们的目标是实现真正的通用人工智能AGI。 萨顿的警告值得认真对待: 光会说话,不等于会思考。光会模仿,不等于会学习。 真正的智能,可能需要目标、需要行动、需要与世界真实的互动。 这条路,我们才刚刚开始走。 --- 以上由AI生成,人工编辑排版。 视频见评论区
应该是上周 Jeff Dean 在斯坦福做了个分享,用AI总结写成文章,视频见评论区 AI 是怎么突然变这么强的? Jeff Dean,Google 的 AI 负责人,他用自己的经历,讲了这个故事。 他说:"我们今天看到的 AI,是过去十五年技术叠加的产物。" 不是一个突破。是一系列突破。 每一个突破,都让 AI 往前跨了一大步。 接下来,让我讲清楚这些突破是什么。 从最早的"模型学会了猫",到今天的"AI 拿奥数金牌"。 2012,模型自己学会认识猫 2012 年。Google Brain 项目。 Jeff Dean 和他的团队,在做一个实验。 他们想知道:AI 能不能自己学会认识东西? 不给标签,不告诉它"这是猫""这是狗"。就给它一堆图片,让它自己看。 他们用了 1000 万个 YouTube 视频帧,随机的。没有任何标注。 然后,他们训练了一个神经网络。网络很大,比以往大 50 到 100 倍。 训练完之后,他们看了看网络顶层的神经元。它们在对什么敏感? 结果让所有人震惊。 有一个神经元,对"猫"特别敏感。你给它一张猫的图片,这个神经元就会被激活。你给它一张狗的图片,它不会被激活。 模型自己学会了"猫"是什么。 没人教它。它自己从 1000 万张图片里,学会了。 这就是无监督学习。 Jeff Dean 说:"这太酷了。" 因为这证明了:AI 可以自己发现概念。不需要人类告诉它"这是什么"。它只需要看够多的数据。 这是 AI 学习能力的起点。 我们讲了 AI 怎么学会"看"。 现在,我们讲 AI 怎么学会"理解语言"。 关键技术:Word2Vec。 以前,计算机处理语言,是把每个词当成一个孤立的符号。"猫"就是"猫"。"狗"就是"狗"。它们之间,没有关系。 但 Word2Vec 不一样。它把每个词,变成一个高维向量。 什么意思?就是,每个词都是一串数字。比如,"国王"可能是 (0.5, 0.8, 0.3, ...)。"女王"可能是 (0.5, 0.2, 0.3, ...)。 但神奇的是:这些向量的方向,是有意义的。 如果你做一个计算:"国王" - "男人" + "女人",你会得到一个新的向量。 这个向量,最接近的词是:"女王"。 这就是 Word2Vec 的魔力。 它不只是把词变成数字。它让语义关系,变成了数学关系。"国王"和"女王"的关系,就像"男人"和"女人"的关系。 这个关系,被编码在向量的方向里。 Jeff Dean 说:"这让机器第一次能'理解'语言。" 不是真的理解。但它能计算语义。 我们讲了 AI 怎么理解语言。 现在,我们讲一个更现实的问题:算力。 2015 年左右。Google 想推出一个改进后的语音识别模型。效果很好,用户会喜欢。 但有一个问题。 Jeff Dean 算了一笔账:如果要用这个模型,Google 需要把计算机数量翻一倍。 你没听错。翻一倍。 这是什么概念?Google 当时已经有几十万台服务器了。翻一倍,意味着再买几十万台。 这根本不现实。 所以,他们必须想办法。 答案是:专用硬件。 他们发现,神经网络有一个特性:它对低精度计算非常宽容。 而且,它的核心就是密集的矩阵乘法。 这两个特性,让他们可以设计专门的芯片。 不用通用的 CPU,也不用 GPU。而是专门为神经网络设计的芯片。 这就是 TPU:Tensor Processing Unit。 2015 年,TPUv1 推出。 它比当时的 CPU 和 GPU,快 15 到 30 倍。能效高 30 到 80 倍。 这解决了算力危机。 后来,他们继续迭代。 最新的系统,比 TPUv2 快了 3600 倍。 Jeff Dean 说:"没有专用硬件,就没有今天的 AI。" 算力,是 AI 的基础设施。 Transformer 改变了一切 我们讲了硬件。现在,我们讲架构。 2017 年。Google 的一个同事,提出了一个新架构。Transformer。 这改变了一切。 在 Transformer 之前,处理语言的模型,都是循环模型。 什么意思? 就是,模型要一个词一个词地处理。 而且,它要把所有信息,压缩到一个向量里。 这很低效。 Transformer 不这么干。 它的核心思想是: 不要压缩,保存所有中间状态。 然后,让模型在需要的时候,去"关注"(Attend to)任何一个状态。 这就是 Self-Attention。 结果呢? 准确率更高。 计算量少了 10 到 100 倍。模型参数小了 10 倍。 这太疯狂了。更快,更准,更小。 而且,Transformer 不只能处理语言。 它还能处理图像。这就是 Vision Transformer(ViT)。 Jeff Dean 说:"Transformer 是现代 AI 的基础。" ChatGPT 用的是 Transformer。 Gemini 用的是 Transformer。 所有你看到的大模型,都是 Transformer。 让模型变聪明的三个技巧 我们讲了 Transformer。 现在,我们讲训练。 怎么让模型变得更聪明?有三个关键技巧。 第一个:稀疏模型。 正常的神经网络,每次预测都要激活整个模型。太浪费了。 稀疏模型不一样。它只激活 1% 到 5% 的参数。剩下的,都在"睡觉"。 这让训练成本降低了 8 倍。 Jeff Dean 说:"Gemini 就是稀疏模型。" 第二个:蒸馏。 这是把知识从大模型转移给小模型。怎么转? 大模型不只告诉小模型"对"或"错"。 它给的是概率分布。这个信号非常丰富。 结果呢?小模型只用 3% 的数据,就能达到大模型的效果。 第三个:思维链。 你给模型一个例子,让它"展示它的工作过程"。比如,做数学题的时候,不是直接给答案,而是一步一步写出推理过程。 这让模型在复杂推理任务上的准确率,显著提升。 这三个技巧,让模型变得更高效、更聪明。 前面我们讲了 AI 的技术基础。 现在,我们讲成果。 2022 年。Google 的研究员们,在为一件事兴奋。 他们的模型,终于能做初中数学题了。准确率:15%。 "约翰有五只兔子,又得了两只,他现在有几只兔子?"这种题。AI 能做对 15%。 他们觉得,这是个突破。 2024 年。两年后。 同一个团队,发布了 Gemini 2.5 Pro。他们让它参加国际数学奥林匹克。 六道题。它做对了五道。 这是金牌水平。 从 15% 的初中数学题,到奥数金牌。两年。 Jeff Dean 说:"这就是 AI 的进步速度。" 不是线性的。不是慢慢变好。 是指数级的。 2022 年,AI 还在学加法。 2024 年,AI 已经在解奥数题了。 那 2026 年呢?我们不知道。 但如果按这个速度,可能会超出我们的想象。 这就是我们今天看到的 AI。它不是慢慢变强的。它是突然变强的。 从 2012 年的"模型学会了猫",到 2024 年的"AI 拿奥数金牌"。 十二年。 AI 从几乎什么都不会,变成了几乎什么都会。 那接下来呢? Jeff Dean 说:AI 将对医疗、教育、科学研究产生巨大影响。 一个不会写代码的人,也能让 AI 帮他创建网站。 这是把专业知识普及给更多人。 但同时,我们也必须正视潜在的风险。 比如,错误信息传播。 AI 可以生成非常逼真的内容。如果被滥用,后果很严重。 Jeff Dean 说:"我们不能对潜在的负面影响视而不见。我们的目标是,在最大化 AI 益处的同时,最小化潜在的弊端。" 这就是 AI 的故事。 从反向传播,到 Transformer,到 Gemini。过去十五年,技术、硬件、算法,全都叠加在一起。 我们今天看到的 AI,是这一切的产物。 而这个故事,还在继续。
AI在重新定义芯片该长什么样。 芯片也在决定AI能走多远。 有三个趋势: 1. 从通用走向专用。 以前大家都用通用GPU跑AI。 但现在会发现,针对大模型推理、训练、端侧部署。 芯片的设计逻辑完全不一样。 未来3-5年,我觉得会出现更多专用AI芯片。 比如说,训练芯片要堆算力,推理芯片要省功耗,端侧芯片要低延迟。 英伟达现在也在分化产品线,H系列做训练,L系列做推理。 国内像壁仞、燧原这些公司,也在找差异化定位。 未来不会一家通吃,会形成 "训练有训练的王者,推理有推理的霸主,端侧有端侧的玩家" 这样的格局。 2. 存算一体突破,解决内存墙问题。 现在大模型最大的瓶颈不是算力,是数据搬运。 芯片要不停地从内存读数据、算完再写回去,这个过程太慢、太耗电。 存算一体就是把计算和存储放在一起,数据不用来回搬了。 技术如果突破,对AI的影响巨大。 清华、中科院、还有一些创业公司都在做这个方向。 未来3-5年,如果存算一体芯片能量产。 让大模型的推理成本降低一个数量级,很多现在做不了的应用到时就能做了。 3. 芯片和算法一起优化。 以前算法工程师写代码,芯片工程师做芯片,两边各干各的。 但现在很多公司在做联合设计。 算法知道芯片的特性,芯片针对算法做优化。 苹果就是,他们的神经网络引擎和iOS的AI功能是一起设计的,所以iPhone上跑AI模型很流畅。 特斯拉的FSD芯片也是这样,针对自动驾驶算法定制的。 国内觉得华为在这方面做得比较好。 昇腾芯片和盘古大模型、鸿蒙系统是打通的。 未来这种软硬一体的能力,会成为核心竞争力。
Stable Diffusion背后的秘密:原来一直在去噪,不是在画图! --- 你可能用过 Stable Diffusion。 当输入"一只猫坐在沙发上"。 然后,你看着进度条,一点一点往前走。 10%... 20%... 30%... 图像慢慢从模糊变清晰。 一开始,全是噪点。 然后,隐约能看到一些形状。 再然后,能看到猫的轮廓。 最后,一张清晰的图出现了。 你有没有想过,它到底在干什么? 答案是:去噪。 它不是在"画"图。 它是在"去噪"。 一开始,给它一张纯噪声图。 就是那种电视没信号时的雪花屏。 然后,它一步一步把噪声去掉。 每去掉一点,图就清晰一点。 去了 50 步,图就清晰了。 这就是 DDPM:Denoising Diffusion Probabilistic Model。 (去噪扩散概率模型) 听起来很复杂,但核心就是两个字:去噪。 但这里有个神奇的地方: 它怎么知道该去成什么样? 我是说,同样是一堆噪声, 你可以去成猫,可以去成狗,可以去成车。 它怎么知道你要的是猫? 答案是:你告诉它的。 你输入"一只猫坐在沙发上"。 这段文字,会被变成一个向量。 然后,在每一步去噪的时候, 模型都会看这个向量, 知道:哦,你要的是猫,不是狗。 所以,它去噪的方向,是朝着"猫"去的。 这就是为什么,你输入不同的文字, 会生成不同的图。 因为去噪的方向不一样。 而这一切,都建立在一个简单的想法上: 生成,就是反向去噪。 你先学会怎么加噪声。 然后,反过来,学会怎么去噪声。 去噪的终点,就是生成的结果。 注意,这是 2020 年的论文突破。 从那之后,所有最好的图像生成模型, Stable Diffusion、Midjourney、DALL-E 2, 全都用这个思路。 不是 GAN,是 Diffusion。 因为 Diffusion 更稳定,更可控,生成的图更真实。 另外,你玩Stable Diffusion时,可能调过下面参数: Steps: 50 CFG Scale: 7.5 Sampler: DPM++ 2M Karras 代码跑通了,图生成了。 但你可能不知道这些参数是什么意思。 Steps 是去噪的次数。 Stable Diffusion 不是一次性生成图。 它是一步一步去噪。 Steps = 50,就是去 50 次噪。 每去一次,图就清晰一点。 Steps 越多,图越清晰,但也越慢。 Steps 越少,图越模糊,但也越快。 一般来说,50 步够了。 CFG Scale 是文字引导的强度。 CFG 是 Classifier-Free Guidance。 意思是:你输入的文字,对生成的影响有多大。 CFG Scale = 1,文字几乎没影响,模型随便生成。 CFG Scale = 20,文字影响很大,模型严格按照文字生成。 CFG Scale = 7.5,是一个平衡。 既听文字的,又有一点创造性。 太低,生成的图和文字不匹配。 太高,生成的图太死板,没有惊喜。 Sampler 是去噪的方法。 DDPM 说的是"去 1000 次噪"。 但 1000 次太慢了。 所以,后来有人发明了更快的方法。 DPM++、Euler、DDIM... 这些都是"怎么更快地去噪"。 有的方法,20 步就能达到 1000 步的效果。 有的方法,更稳定。 有的方法,更有创造性。 你选哪个 Sampler,就是在选"怎么去噪"。 这就是这些参数的意思。 Steps:去几次噪。 CFG Scale:文字影响有多大。 Sampler:用什么方法去噪。 ---- AI生成好读的科普文,很适合学习复杂的概念。