2025-04-19 12:43:00
改变AI认知的一篇文章 我敢说这是今年最值得每个人读的AI blog,让我彻底震撼! OpenAI researcher 姚顺雨的blog,这里有个趣事,贵清有两个yaoshunyu,一个在Anthropic、一个在OpenAI。 文章非常好,像是某个大佬深夜写的真心话,可惜最近一直比较忙,没时间细写。网上也有不少写的了,我们就写一个普通人能看懂的版本吧。 不再刷榜!大模型的下一个10年:真正创造有用的产品、产生实际价值,催生万亿级别的公司! 1、上半场总结:卷模型、创新算法、刷benchmark - 历史书中AI发展的里程碑事件,deepblue、AlphaGo、GPT-4和o系列,背后都是算法上的突破:搜索、深度强化学习(deep RL)、scaling和reasoning。 - 上半场的游戏规则很简单: - 谁搞出来的新方法、新模型能在benchmark上刷出新高分,谁就厉害。 - benchmark主要是跑分用的,出不了啥风头。文章举了个例子,ImageNet那么重要的benchmark,引用量还不到AlexNet的三分之一。(不过在科研中还是经常有人看不起 benchmark 的工作,认为只有工作量没有创新性... - 创建更困难的基准测试,然后继续循环 - 也很合理,从零搞出反向传播、CNN、Transformer,需要多强的洞察力、工程能力?相比之下,定义个测试任务好像就简单多了,很多时候就是把人已经在干的事儿(比如翻译、认图、下棋)搬过来,变成AI的考题,技术含量感觉没那么高。 2、转折点:炼丹术突破了,强化学习(RL)终于能打了!可以泛化了 强化学习有三个关键组件:算法、环境(environment)和先验知识(priors)。之前做RL的人,主要关注算法,对环境和先验知识的关注比较少。但是在 deep RL时代,很明显环境也非常重要:算法性能往往高度依赖于开发和测试环境。 海量语言预训练(Language Pre-training):OpenAI最初的计划是先构建通用环境(gym),想把互联网、电脑操作都变成RL环境,然后用牛逼算法去解,数字AGI就成了。听着挺美,但没完全搞定,尤其是在复杂任务(比如上网、操作电脑)上,泛化还是很差。直到GPT-2/3出来,大家才意识到,想把这个RL炼丹完成,缺的是强大的先验知识(通过与RL完全无关的方式获得)!靠预训练把互联网上的常识、语言知识塞给模型,然后再微调(SFT/RL),才能搞出WebGPT、ChatGPT这种能打的模型。 后来就开始进行Scale阶段了,数据和算力越来越大,这个大家都懂。 推理与行动(Reasoning and Acting):这是姚顺雨特别强调的一点,也是我们看懂模型目前阶段的关键。 要理解一个故事:他当年用GPT-2搞文本游戏,发现模型虽然能学,但需要海量步骤,而且换个游戏就不行了。他的“顿悟”是:人不仅会执行具体动作(开箱子、用剑砍怪),还会思考(这地儿危险,我得找个武器,武器可能在锁着的箱子里,箱子在柜子里………)。这种“思考”或“reasoning”,虽然不直接改变外部世界,但它是一个极其重要的“动作”,能利用预训练模型里的先验知识来泛化。虽然理论上给增加无限的“思考”选项会让决策变得困难,但实际上,因为预训练模型“见过”各种情况下的思考模式,这种“思考”反而能帮助模型更好地选择真正有效的动作。作者的原话大概意思是:“语言通过在agent中进行reasoning来实现泛化”。 有了强大的语言先验知识 + 把reasoning也当作一种action加入环境 + 足够的规模——作者有点讽刺地说,反倒是RL算法本身,可能成了最不重要的部分。哈哈哈哈,这也是我们一直说的那句:RL,大道至简。 这跟以前RL研究的重心完全反过来了,真是三十年河东,三十年河西。 3、下半场:别光卷模型了,开始卷“问题定义”和“评估”吧 这段其实也很简单,我们也一直提了好久了,大家都刷榜,是因为对模型能力缺乏有效的评估手段。 我们一直的观点是,evaluation是大模型最重要的一部分(可能没有之一),正如那句老话:"if you can't measure it,you can't improve it"。 姚顺雨大神也说了,下半场靠新方法/模型刷分的游戏就快玩不下去了,为啥? - 一来,这套“秘方”越来越标准化、工业化了。上述范式能很好的scale和泛化时,你针对特定任务的新方法可能改进5%,而下一个o系列模型在不明确针对这个任务的情况下改进30%。 - 二来,就算你搞出更难的benchmark,用不了多久也会被这套“秘方”给平推了。 那下半场该做什么呢?姚顺雨觉得我们应该从根本上重新思考评估。这意味着不仅是创建新的、更难的基准测试,而是要开始问“我们到底应该让AI干什么?怎么衡量才算真正的进步?” 这要求思维方式的转变,得更像个产品经理了(算法研究员和产品经理殊途同归了?:P) 他举了个例子,AI在各种考试(SAT、IMO、IOI)和游戏(棋类)上都超神了,但感觉现实世界好像没因此发生翻天覆地的变化,很多普通人完全没关注 AI 的发展而且也没受到影响?因为我们的评估方式跟真实世界脱节了。 因此下半场的真正范式是: - 我们开发新的评估设置或任务,追求现实世界的效用 - 我们用现有算法来解决这些新问题(努力提高效用而不是刷榜)
2025-04-19 12:43:00
2025-04-18 19:13:08
2025-04-17 11:26:38
2025-04-17 11:06:06