时政
财经
科技
虚拟货币
其他
登录
#Sutton观点
关注
勃勃OC
3天前
总结一下最近特别火热的Sutton谈到LLM在通向 AGI 道路上的核心局限与原因: 1. 根本性局限:数据有限且人类化 LLM 的学习完全依赖于人类生成的文本数据(有限且有偏)。 一旦人类数据被“吃完”,模型将失去可持续自我学习的来源。 学到的知识和价值体系被“人类偏见”所框定,无法跳脱出人类语料的边界。 2. 学习机制的局限:被动模仿 vs. 主动学习 LLM 是“预训练 + 微调”模式,本质是模仿人类语言模式。 它不会主动与世界互动、实验、纠错或持续学习。 Sutton 所主张的“child machine”(类动物学习机器)应当是一个通过环境反馈动态进化的系统,而非被一次性训练后静态部署的模型。 3. “Bitter Lesson” 被误解的悖论 Sutton 的“Bitter Lesson”主张:应信赖可扩展的计算与自动学习,而非人类设计。 LLM 看似符合“越多算力越强”的范式,但其实仍深陷人类干预之中: 训练数据来自人类 微调由人类评估 奖励机制由人类工程师手动设计 因此它并非真正的“bitter lesson pilled”,而是人类经验的放大器。 4. 缺乏“在线学习”与“内在动机”机制 动物和人类学习是持续的、带有内在动机的过程(好奇、快乐、探索)。 LLM 缺少此类驱动力,除非人类手动触发再训练。 Sutton 倡导的强化学习系统应当在测试时仍在学习,而非被“冻结”。 5. 自然智能与人工智能的初始化差异 动物看似“从零学习”,但其大脑由进化赋予了强大的初始结构(DNA ≈ 演化训练的参数)。 AI 无法重演进化,因此需要巨量的预训练数据“替代”这一初始条件。 换言之,预训练是我们拙劣的人造“进化”,解决了冷启动问题但带来偏见。 6. 突破方向与可能路径 引入内在动机与持续学习机制:模仿动物的“好奇心、探索、社会互动”学习方式。 减少人类监督依赖:发展能自我生成任务、奖励、自我纠错的学习系统。 多智能体共演化:通过环境中多个 AI 体相互作用,模拟文化与合作的演化。 混合范式:结合 LLM 的符号/语义优势与强化学习的行为探索,使之既“懂语言”又“能实验”。
#LLM局限性
#AGI挑战
#Sutton观点
#人工智能未来
#在线学习
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞