时政
财经
科技
虚拟货币
其他
登录
#自主滑块
关注
orange.ai
1周前
刚看完Andrej Karpathy这期暴论频出的播客: - 今年不是"智能体元年",我们身处"智能体的十年" - 现在的强化学习就像"通过吸管吸取监督" - LLM悖论:完美记忆 + 泛化能力差 - 人类糟糕的记忆是特性,不是bug - 当你记不住细节时,大脑被迫进入抽象模式,看到"森林"而不只是"树木"。 - 儿童:记忆最差,创造力最强(还没"过拟合"到社会规范) - 我们需要的AI只需要认知核心。剥离记忆,保留算法。 也许我们需要的不是更大的模型,而是更会遗忘的模型? - AI 不会立即取代人类,而会逐步提高工作占比,最终完成 99% 的工作,剩下1%无法取代。 - 以前的教育是为了找到工作,Post-AGI时代教育将像健身房一样,为了乐趣和个人充实。 播客开头,AK先重新校准了我们对 AI 的期望。 今年不是"智能体元年",我们身处"智能体的十年",区别在于,一切没那么快,虽然也没那么慢。 他说,现在强化学习就像"通过吸管吸取监督" ,模型尝试几百种方法,最后只得到一个"对错"信号,然后把这个信号广播给成功路径的每一步,包括那些纯属运气的错误步骤。 你瞎猜猜中了答案,然后把猜的过程也当成"正确方法"强化,这能学好吗? AK还提到一个更荒诞的例子:有个数学模型突然开始得满分,看起来"解决了数学"。但仔细检查发现,模型输出的是"da da da da da"这样的完全胡言乱语,却骗过了LLM评判者。这就是用LLM做评判的问题——它们会被对抗样本攻击,因为这些乱码是它们从没在训练中见过的"样本外"内容。 更深层的问题是:人类读书时在做什么? AK说:"我们读的书其实是prompts,让我做合成数据生成用的。" 我们读书时不是被动接收信息,而是在内心进行复杂的对话。新只是与已知知识调和,产生新理解,形成个人化的认知图谱。 但LLM呢?只是在预测下一个token,缺乏这种"内心对话"机制。 人类还有个神奇的"睡眠阶段"。白天我们建立起事件的上下文窗口,睡觉时发生蒸馏过程,将信息整合到大脑权重中。 LLM缺乏这种等效机制,每次启动都是零上下文的白纸。 AK发现了一个根本悖论: LLM悖论:完美记忆 + 泛化能力差 人类悖论:糟糕记忆 + 强学习能力 为什么?因为遗忘强迫我们抽象。 这里AK还有个精妙的类比:模型的预训练权重就像"一年前读过某本书的模糊回忆",而上下文窗口信息则像"工作记忆"——直接可访问。这解释了为什么in-context learning感觉更"智能":在预训练过程中,像 Llama 3 这样的模型将 1.5 万亿个标记压缩到它的权重中,每个标记仅存储约 0.07 比特的信息。相比之下,上下文学习的信息吸收速度要高 3500 万倍。 当你记不住细节时,大脑被迫提取general patterns(通用模式),看到"森林"而不只是"树木"。 而LLM被海量训练数据的完美记忆"分散注意力",反而阻碍了真正的抽象理解。 我们仔细会议人类的学习过程。读过的书大部分细节都忘了,但核心思想和方法论却越来越清晰。 原来这不是记忆力差,这是智能啊。 更震撼的类比:儿童 vs 成人 vs LLM 儿童:记忆最差,创造力最强(还没"过拟合"到社会规范) 成人:记忆中等,创造力中等(已经"坍塌"了部分) LLM:记忆完美,创造力最低(被训练数据"过拟合") AK提到Erik Hoel的研究:梦境可能就是大脑的anti-overfitting机制。连睡觉都是为了避免过拟合,引入随机性防止思维僵化。 这解释了为什么当前AI在"合成数据训练"上会失败。你让GPT对同一本书思考10次,会发现回答几乎一样。这就是"静默坍塌"。 模型的输出分布极其狭窄,AK开玩笑说"它实际上只有3个笑话"。在这种低熵数据上训练只会强化模型的偏见,让它变得更糟。 而且人类其实也经历类似的"坍塌"过程,儿童富有创造力是因为还没"过拟合"到社会规范,会说出令人震惊的话。但成年后我们也"坍塌"了,重复相同的思想,学习率下降,创造力递减。 梦境也可能是大脑的anti-overfitting机制,通过引入随机性防止思维僵化。 所以他提出了一个激进想法:我们需要认知核心。剥离记忆,保留算法。 让AI像"有方法论但没有百科全书的哲学家",强制它查找而非回忆,专注于思考的meta-skills。 他预测未来20年内,高效的认知核心可能只需要10亿参数,而不是现在动辄千亿参数的模型。 大部分参数都在处理互联网上的"垃圾和胡扯",如果优化训练数据质量,分离认知组件,就能实现极大压缩。 当前foundation model的路径是否根本错了? 也许我们需要的不是更大的模型,而是更会遗忘的模型? 重新理解AI的发展路径 早期深度强化学习专注游戏(如Atari)其实是走错了方向。真正目标应该是创造能在现实世界执行知识工作的智能体,不是游戏高手。 他回忆自己在OpenAI的早期项目,用键盘鼠标操作网页的智能体,目标是执行知识工作。但项目"太早了",智能体缺乏必要的"表示能力",会因稀疏奖励卡住。缺失的关键是强大的预训练模型。今天类似的计算机使用智能体之所以成功,正是因为建立在LLM之上,你需要先有LLM获得强大表示,再构建有效智能体。 他的另一个深刻观察:AI不是独立技术类别,而是自动化连续体的一部分。从编译器、代码编辑器到搜索引擎,再到现在的LLM,我们一直在"抽象阶梯"上向上攀登,让机器处理更多底层细节。 这解释了为什么AI经济影响主要集中在编程领域,代码本身就是文本,有成熟基础设施(IDE、版本控制),LLM可以无缝接入。相比之下,制作幻灯片这种视觉任务就困难得多,因为没有infrastructure让AI显示"diff"或跟踪变化。 但AK也泼了冷水:当前AI编程模型还没准备好真正自动化编程。他亲身体验发现,对于独特的智力密集项目,模型会失败——它们有认知缺陷,误解自定义代码,因为总是默认使用在线常见模式。他感慨"行业跳跃太大,试图假装这很神奇,但其实是垃圾"。 "九进军"的苦涩现实 从Tesla自动驾驶5年经验,AK深知从90%工作的demo到99.9%可靠产品的"九进军"有多艰难。每提升一个九,都需要massive effort。他提到自动驾驶演示从1986年就存在,2014年他在Waymo车上体验了完美驾驶,以为技术很接近完成。但现实是demo到产品的巨大鸿沟,在高风险领域尤其如此。 在Tesla的五年里,他们可能只推进了两三个"九",还有更多要走。这种现实主义让他对AGI时间线保持谨慎:这是"智能体的十年",不是"智能体之年"。 当前模型就像"有完美记忆的小孩"或"学者儿童"——能通过博士级测试,却认知上还有严重缺陷:缺乏持续学习、多模态能力、有效使用计算机的能力,以及大脑中海马体、杏仁核等关键组件的类似物。 未来的工作模式:自主滑块 AK预测不会出现"瞬间工作替代",而是"自主滑块"模式:AI处理80%常规任务,人类监督AI团队并管理最复杂的20%。有趣的是,当AI自动化99%工作时,处理最后1%的人类反而会变得极其有价值,成为整个系统的瓶颈,他们的薪资也会提高。 教育的范式转换 AK对教育未来的洞察:Pre-AGI时代教育是功利性的(为了工作),Post-AGI时代教育将像健身房一样,为了乐趣和个人充实。 他还分享了一个教学技巧:先展示痛点,再给解决方案。通过展示简单方法的局限性来激发学习动机,这样学习者会深刻理解为什么需要复杂解决方案。 最后,要真正掌握知识,就要试着向别人解释。解释的过程会迫使你面对理解中的空白,这又回到了他的核心观点: 限制和困难往往是学习的催化剂。 这 recall 了之前的观点,真正的技术突破往往需要重新思考基础假设。 也许AGI的关键不是让机器记住更多,而是学会智能地遗忘。
#智能体十年
#LLM悖论
#AI教育范式
#遗忘学习
#自主滑块
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞