#研究

2个月前
改变AI认知的一篇文章 我敢说这是今年最值得每个人读的AI blog,让我彻底震撼! OpenAI researcher 姚顺雨的blog,这里有个趣事,贵清有两个yaoshunyu,一个在Anthropic、一个在OpenAI。 文章非常好,像是某个大佬深夜写的真心话,可惜最近一直比较忙,没时间细写。网上也有不少写的了,我们就写一个普通人能看懂的版本吧。 不再刷榜!大模型的下一个10年:真正创造有用的产品、产生实际价值,催生万亿级别的公司! 1、上半场总结:卷模型、创新算法、刷benchmark - 历史书中AI发展的里程碑事件,deepblue、AlphaGo、GPT-4和o系列,背后都是算法上的突破:搜索、深度强化学习(deep RL)、scaling和reasoning。 - 上半场的游戏规则很简单: - 谁搞出来的新方法、新模型能在benchmark上刷出新高分,谁就厉害。 - benchmark主要是跑分用的,出不了啥风头。文章举了个例子,ImageNet那么重要的benchmark,引用量还不到AlexNet的三分之一。(不过在科研中还是经常有人看不起 benchmark 的工作,认为只有工作量没有创新性... - 创建更困难的基准测试,然后继续循环 - 也很合理,从零搞出反向传播、CNN、Transformer,需要多强的洞察力、工程能力?相比之下,定义个测试任务好像就简单多了,很多时候就是把人已经在干的事儿(比如翻译、认图、下棋)搬过来,变成AI的考题,技术含量感觉没那么高。 2、转折点:炼丹术突破了,强化学习(RL)终于能打了!可以泛化了 强化学习有三个关键组件:算法、环境(environment)和先验知识(priors)。之前做RL的人,主要关注算法,对环境和先验知识的关注比较少。但是在 deep RL时代,很明显环境也非常重要:算法性能往往高度依赖于开发和测试环境。 海量语言预训练(Language Pre-training):OpenAI最初的计划是先构建通用环境(gym),想把互联网、电脑操作都变成RL环境,然后用牛逼算法去解,数字AGI就成了。听着挺美,但没完全搞定,尤其是在复杂任务(比如上网、操作电脑)上,泛化还是很差。直到GPT-2/3出来,大家才意识到,想把这个RL炼丹完成,缺的是强大的先验知识(通过与RL完全无关的方式获得)!靠预训练把互联网上的常识、语言知识塞给模型,然后再微调(SFT/RL),才能搞出WebGPT、ChatGPT这种能打的模型。 后来就开始进行Scale阶段了,数据和算力越来越大,这个大家都懂。 推理与行动(Reasoning and Acting):这是姚顺雨特别强调的一点,也是我们看懂模型目前阶段的关键。 要理解一个故事:他当年用GPT-2搞文本游戏,发现模型虽然能学,但需要海量步骤,而且换个游戏就不行了。他的“顿悟”是:人不仅会执行具体动作(开箱子、用剑砍怪),还会思考(这地儿危险,我得找个武器,武器可能在锁着的箱子里,箱子在柜子里………)。这种“思考”或“reasoning”,虽然不直接改变外部世界,但它是一个极其重要的“动作”,能利用预训练模型里的先验知识来泛化。虽然理论上给增加无限的“思考”选项会让决策变得困难,但实际上,因为预训练模型“见过”各种情况下的思考模式,这种“思考”反而能帮助模型更好地选择真正有效的动作。作者的原话大概意思是:“语言通过在agent中进行reasoning来实现泛化”。 有了强大的语言先验知识 + 把reasoning也当作一种action加入环境 + 足够的规模——作者有点讽刺地说,反倒是RL算法本身,可能成了最不重要的部分。哈哈哈哈,这也是我们一直说的那句:RL,大道至简。 这跟以前RL研究的重心完全反过来了,真是三十年河东,三十年河西。 3、下半场:别光卷模型了,开始卷“问题定义”和“评估”吧 这段其实也很简单,我们也一直提了好久了,大家都刷榜,是因为对模型能力缺乏有效的评估手段。 我们一直的观点是,evaluation是大模型最重要的一部分(可能没有之一),正如那句老话:"if you can't measure it,you can't improve it"。 姚顺雨大神也说了,下半场靠新方法/模型刷分的游戏就快玩不下去了,为啥? - 一来,这套“秘方”越来越标准化、工业化了。上述范式能很好的scale和泛化时,你针对特定任务的新方法可能改进5%,而下一个o系列模型在不明确针对这个任务的情况下改进30%。 - 二来,就算你搞出更难的benchmark,用不了多久也会被这套“秘方”给平推了。 那下半场该做什么呢?姚顺雨觉得我们应该从根本上重新思考评估。这意味着不仅是创建新的、更难的基准测试,而是要开始问“我们到底应该让AI干什么?怎么衡量才算真正的进步?” 这要求思维方式的转变,得更像个产品经理了(算法研究员和产品经理殊途同归了?:P) 他举了个例子,AI在各种考试(SAT、IMO、IOI)和游戏(棋类)上都超神了,但感觉现实世界好像没因此发生翻天覆地的变化,很多普通人完全没关注 AI 的发展而且也没受到影响?因为我们的评估方式跟真实世界脱节了。 因此下半场的真正范式是: - 我们开发新的评估设置或任务,追求现实世界的效用 - 我们用现有算法来解决这些新问题(努力提高效用而不是刷榜)
2个月前
运动是逆龄的“密钥”?🔑 2025年4月12日,清华大学体育部的科研人员在《npj Aging》期刊上发表的一项最新研究,揭开了运动与衰老之间的神秘关系。 研究人员从国家健康与营养调查(NHANES,1999 - 2002)数据库中,精心挑选了948名成年参与者,他们的平均年龄是62.5岁,而且男性占比51%。为了准确衡量每个人的运动水平,研究人员详细记录了这些参与者各种运动的频率和时长,然后通过专业计算,得出每周的代谢当量。这个代谢当量就像是一个运动“打分器”,数值越高,代表运动水平越高。 那怎么判断身体的衰老程度呢? 研究人员借助了8种基于DNA甲基化预测的表观遗传时钟。简单理解,这些“时钟”能估算出每个人的生物学年龄,帮助研究人员分析运动对衰老的影响。 研究结果显示,较高水平的体力活动和所有表观遗传时钟预测的更年轻的生物学年龄有着显著关联。直白点说,就是运动越多,从生物学角度看,我们的身体可能就越年轻! 尤其是在SkinBloodAge和LinAge这两个指标上,运动带来的积极影响格外突出。 不过,运动的“抗衰效果”在不同人群中有些不一样。 研究发现,非西班牙裔白人、BMI在25 - 30之间的人,还有已经戒烟的人群,运动对减缓生物学年龄的效果更明显。而且,性别、种族、BMI、吸烟状态这些因素,都会在运动和生物学年龄之间“牵线搭桥”,影响它们之间的关系。 现在全球老龄化问题越来越严重,大家都在急切地寻找能延缓衰老、预防老年疾病的方法。 而这次研究明确告诉我们,规律运动很可能就是关键“钥匙”。 哪怕只是每天多走几步路、爬几层楼梯,稍微增加一点运动量,说不定就能在延缓衰老上给我们带来意想不到的惊喜。
3个月前
如果你想从一个客观、严谨的角度了解中国经济,我非常推荐你阅读Arthur R. Kroeber的著作《China’s Economy: What Everyone Needs to Know》(《中国经济:你需要知道的一切》)。这本书与那些你在油管上看到的、根本没有接受过正规经济学教育的网红博主随意发表的观点完全不同,它提供的是基于扎实研究、深厚理论基础和丰富实地经验的深刻分析。 Arthur R. Kroeber毕业于哈佛大学,是国际知名的中国经济研究专家。他是独立经济研究机构Gavekal Dragonomics的创始合伙人,该机构成立于2002年,总部位于北京和香港,长期关注中国经济及其全球影响力。他同时兼任该机构研究部门的负责人。 在创立Dragonomics之前,Kroeber在中国、台湾、印度和巴基斯坦等地拥有长达15年的金融新闻与经济分析经验,深谙亚洲经济的复杂现实。此外,他还是纽约大学斯特恩商学院和哥伦比亚大学国际与公共事务学院的兼职经济学教授,并担任布鲁金斯-清华公共政策中心的高级非常驻研究员。 Kroeber最具代表性的著作《China’s Economy: What Everyone Needs to Know》由牛津大学出版社出版,第一版于2016年推出,2020年发布第二版,目前已被众多国际大学广泛选为经济学课程教材,成为深入理解中国经济增长模式、制度特征和未来挑战的权威入门书籍。 同时,Kroeber还是美国外交关系委员会(Council on Foreign Relations)和美中关系全国委员会(National Committee on U.S.-China Relations)的成员,其专业能力和学术贡献得到国际同行的广泛认可。 所以,如果你真正想理解中国经济的发展逻辑,远离肤浅甚至误导性的解读,Arthur R. Kroeber的这本书一定是最佳的选择。我后续会出一个系列来讲这本书。