#图灵奖

宝玉
5个月前
人工智能的最高奖项——图灵奖,近日颁给了强化学习领域的两位先驱:安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton)。他们提出的强化学习理论,如今已成为ChatGPT等热门AI系统背后的核心技术。 故事的起点是1977年,当时巴托在美国麻省大学阿默斯特分校做研究。他提出了一个有趣的想法:大脑里的神经细胞就像一个个追求享乐、躲避痛苦的小生命。也就是说,人类智慧其实源自无数个细胞为了最大化快乐、减少痛苦而不断摸索。 一年后,萨顿加入了巴托的研究。他们将这个简单但巧妙的理论应用到了人工智能上,形成了我们今天熟悉的「强化学习」。通俗点讲,强化学习就是让机器通过类似人类的“奖惩机制”来学习做事。表现好就给“奖励”(机器感觉到的“快乐”),表现不好就给予“惩罚”(机器感受到的“痛苦”)。这样不断尝试、不断反馈,机器就能逐渐掌握如何做出更好的决定。 2025年3月5日,全球最大的计算机协会——计算机协会(Association for Computing Machinery)宣布,巴托和萨顿获得了今年的图灵奖。这一奖项创立于1966年,被誉为“计算机界的诺贝尔奖”,他们也将分享100万美元的奖金。 强化学习最近十年里在人工智能领域爆发式增长,影响深远。谷歌的AlphaGo围棋机器人,还有OpenAI开发的ChatGPT聊天机器人背后的技术,都是强化学习的直接成果。 正如华盛顿大学的计算机科学家奥伦·埃齐奥尼(Oren Etzioni)所说:“他们俩是强化学习领域毫无争议的开创者,他们创造了核心理论,还写了这领域的权威教材。” 他们在1998年出版的教材《强化学习导论》至今仍是强化学习最经典的教科书之一。 心理学家早就观察到,人和动物都会从经验中学习。早在1940年代,著名计算机科学家艾伦·图灵就提出,机器也许可以通过类似的方法来学习。但真正把这一想法数学化、系统化的,是巴托和萨顿。他们的研究最初只是学术理论,直到2016年AlphaGo打败了世界顶级围棋选手李世石,这项技术才震惊了全世界。 AlphaGo之所以强大,是因为它在背后进行了数百万场对局,每一步都靠试错的方式学习,找到了哪些走法会赢,哪些走法会输。这背后的技术团队负责人之一大卫·席尔弗(David Silver)正是在加拿大阿尔伯塔大学跟随萨顿学习强化学习的。 当然,很多专家曾怀疑强化学习是否能应用到游戏之外的场景。毕竟游戏胜负清晰,而现实生活中成功和失败却并不总那么简单。 但强化学习的应用早已突破游戏领域,比如如今大热的聊天机器人。像ChatGPT在发布前,OpenAI聘请了数百人跟它进行对话,并给出具体的反馈意见。ChatGPT就根据这些“奖惩反馈”不断优化自己,逐渐学会了更接近人类的对话方式。 这种技术就被称作“人类反馈强化学习”(RLHF)。最近,OpenAI和中国的创业公司DeepSeek更进一步,开发出了一种新型强化学习,让机器人不需要人为干预,就能通过不断自我尝试解决数学题,逐步学会更复杂的推理过程。这些新型AI被称作“推理系统”,比如OpenAI的o1以及DeepSeek的R1。 巴托和萨顿认为,这些新系统展示了未来机器学习的新方向。他们预测,将来机器人会像人类和动物一样,通过不断在现实世界中试错,学会如何操控自己的身体,完成更复杂的任务。 用巴托的话来说:“通过强化学习学会控制一个身体,这是一个非常自然的过程。”
宝玉
6个月前
一名本科生推翻了图灵奖得主姚期智延续40年的数据科学猜想,能让哈希表平均查询时间成为一个与 x 无关的常数 自从计算机诞生以来,哈希表(hash table)就被视为最基础、最常用、研究最充分的数据结构之一。它能帮我们在海量数据中快速“插入、删除、查询”——效率之高使其遍布现代应用:从数据库管理到网络路由,再到编程语言的底层实现,几乎无处不在。也正因为它的重要性,围绕哈希表的理论研究和实践优化在过去几十年里始终没有停歇。 那么,哈希表还能多快? 在1985年的一篇里程碑式论文中,图灵奖得主姚期智(Andrew Yao)提出了一个被广泛接受的判断:在特定类型的哈希表中,要想在最坏情况下(例如表里只剩下最后一个空位)进行插入或查询,所需的操作次数与哈希表的“填充度”x(接近99%、99.9%乃至更高)呈正比。换言之,当哈希表已几近装满,要寻找空位或者特定元素时,每一次都需要“多试几个位置”才行。而这一推论,40年来一直是计算机科学领域的共识之一。 这次,一个来自本科生的意外发现,却推翻了这条“铁律”。 安德鲁·克拉皮文(Andrew Krapivin)本是罗格斯大学的一名普通本科生,却在阅读一篇名为“微型指针”(Tiny Pointers)的论文时,突发奇想:如果指针可以变得更“微型”,那能否连带着重新设计哈希表本身?结果不但设计出了全新结构,速度超出预期,更挑战了业界对“最坏情况下插入和查询速度”的旧有认知。在导师和合作者的帮助下,他证明这种新型哈希表在几近满载时,寻找元素或空位的耗时仅仅和(log𝑥)²成正比,而非 x 。 这一成果直接动摇了姚期智的著名猜想。 更令人惊讶的是,他们还证明了一个“平均查询时间”上的突破。 传统的研究结论认为,满足某些性质(例如“贪心”插入)的哈希表,其平均查询时间至少要达到(log𝑥)。但克拉皮文团队给出的非贪心策略却把这个瓶颈彻底打破,甚至能让平均查询时间成为一个与 x 无关的常数。这是此前的研究几乎无人想到的可能性。 具体信息可以看 QuantaMagazine 的这篇报道《Undergraduate Upends a 40-Year-Old Data Science Conjecture》。