时政
财经
科技
虚拟货币
其他
登录
#深度学习
关注
Feiteng
15小时前
和自身经历有点像,mini版 本科数学专业没怎么学过编程 研究生也是数学老板比较牛,实验室机器从2010年就高配NV GPU,硕士两年 2012-2013 猛学 机器学习、深度学习,练习 coding 实习offer mentor考完、老板还能面SVD分解,mentor和老板二人拒了他们上交学弟把位置给了我,接触开源项目 kaldi、把CNN成功运用到语音识别系统上,词错率降低10%,这段经历+复现 Hinton Dropout 论文写就硕士毕业论文 好多年后一公司产品经理离职时来跟我说:你知道知网上你硕士论文引用很高吗? 真没看过 14 年毕业,进入一家做智能音箱的公司,也有百万用户的APP,比Amazon Echo推出时间都早,无奈技术团队太菜,一套 ASR, CTO和技术骨干搞了两年也没搞出来,技术路线落后且错误;我拿kaldi 一两周就训练出能用模型,试图扭转技术路线没有成功,最后他们妥协说,我能用 java 实现一套 ASR 识别系统就采用我的方案;随后一个月学习java 用 java 写了一套 ASR 运行时,也摸透了 kaldi decoding DNN + WFST 这一套原理; 没有掰正技术路线的时候,就下定决心离开了,当时就一个想法:得去人才密度高的地方。 后面就聊了一家公司直接加入了,合伙人都是学历履历比较优秀的,电话面试官有一位是 Google 总部语音科学家背景,深入聊了 WFST,ASR 解码原理等,这是碰到行家了;约了 on site,CTO 还考八股面试题,没刷过题只给出了思路,CEO 聊的就比较宏大了; 进入后,先做了个裁剪神经网络的活;合伙人给了一个任务,提高公司核心算法的准确率,为此他们在过去一年准备了十几个benchmark,知乎还有一个热帖讨论猜测这个核心算法;最后否定了一位资深同事和合伙人的方案,提出了自己的方案,一个人执行落地上线推给千万用户,在十几个benchmark上准确率提高到了 95%,优化神经网络计算速度40倍实现在手机端离线计算,就是玩半小时就发烫;17年交接手上语音评测、语音识别工作,新开语音合成技术方向,18-20年合成水平显著高于市场商业API,公司开all hands 就会拿来一波图灵测试;公司每年hackathon必拿奖;三年后公司纽交所上市; 这些年错过的机会: 16 年看过 比特币 18年被邀请去字节组建团队,当时公司很快上市,没去 21年底看机会 MiniMax CEO CTO 约着飞来上海当面聊,过了个春节 23年初写了个开源项目 valle,后来跟大学生们面基,他们说 这是他们的语音生成大模型入门代码,有些已是头部厂商核心研发力量;minimax 同学也说无它就增加了训练数据;这个项目带来过百万收入
#数学转行
#语音识别
#深度学习
#kaldi
#技术突破
#职场发展
#AI
#成功案例
分享
评论 0
0
meng shao
1周前
[在线好课推荐] CS230:斯坦福深度学习核心课程,聚焦神经网络构建与机器学习项目实践,由吴恩达等导师主导,已成为 AI 工程师必修课程,帮助无数人入门深度学习 学习目标 · 掌握深度学习基础概念 · 动手训练神经网络模型 · 学会领导高效的 ML 项目 主要内容 · 卷积网络(CNN):图像处理基础 · 循环网络(RNN/LSTM):序列数据如文本/时间序列 · 优化与正则:Adam 优化器、Dropout/BatchNorm 防过拟合 · 初始化技巧:Xavier/He 方法 先决条件 · 概率论(CS109/STATS116) · 线性代数(MATH51) · 基本编程能力(Python) 适合有数据科学基础的学生 Youtube 课程视频: 斯坦福课程主页:
#CS230
#深度学习
#吴恩达
#神经网络
#斯坦福
分享
评论 0
0
环球纪录
1周前
麻省理工大学公开课:人工智能和深度学习将改变世界。这堂课要听! .
#麻省理工大学
#人工智能
#深度学习
#公开课
#科技
分享
评论 0
0
向阳乔木
2周前
由Claude 4.5 创作: AI风云人物之Ilya Sutskever ,那个解雇了Sam Altman的男人 ## 序章:一场无声的政变 2023年11月17日的硅谷,周五下午的阳光还算温暖。 就在大多数科技公司员工准备开始周末时,一则消息如同地震波般撕裂了整个科技圈:萨姆·奥特曼。 那个永远穿着灰色连帽衫、在推特上预言AGI即将到来的男人,那个刚刚让ChatGPT成为史上增长最快应用的CEO——被自己公司的董事会解雇了。 官方声明只有一句话:"在与董事会的沟通中不够坦诚"。这种含糊其辞的措辞,在硅谷的历史上通常意味着背后有更深的故事。 果然,几小时内,各种版本的内幕开始在Signal群组和私密晚宴上流传。 在这场风暴的中心,站着一个很少出现在聚光灯下的人:伊尔亚·苏茨克维。如果你在旧金山的咖啡馆里见过他,你可能不会认出这就是那个改变了人工智能历史进程的科学家。他不像奥特曼那样善于演讲,也不像马斯克那样喜欢制造话题。但在AI研究者的圈子里,他的名字几乎等同于"深度学习革命"本身。 这一次,正是他亲自给奥特曼打了那通电话。据说,电话那头的奥特曼一开始以为这是个玩笑。但苏茨克维的声音里没有任何开玩笑的意思。在公司内部,他已经成为一个阵营的精神领袖——那些认为"我们走得太快了"的人。 这不是一场关于股权或办公室政治的争斗。这是两种世界观的碰撞:一边是奥特曼,相信快速迭代、相信市场的力量、相信人类会找到办法;另一边是苏茨克维,他看到了自己一手创造的技术正在以超出想象的速度进化,而这让他夜不能寐。 ## 第一章:被魔法吸引的心灵 1986年,在苏联的下诺夫哥罗德市(当时还叫高尔基市),一个犹太家庭迎来了他们的儿子伊尔亚。那是一个封闭的城市,外国人被禁止进入,因为那里有苏联的军工厂。在那个年代,拥有一台电脑几乎是不可想象的奢侈。 五岁那年,苏茨克维一家响应"回归故土"的号召,离开了苏联,搬到了耶路撒冷。这是一次彻底的文化休克。从说俄语到说希伯来语,从寒冷的俄罗斯到炎热的中东,小伊尔亚需要重新学习一切。但也正是在耶路撒冷,他第一次见到了电脑。 多年后,当被问起那一刻时,苏茨克维用了一个词:"魔法"。他说自己"完全被迷住了"。这不是一个孩子对新玩具的简单兴奋,而是一种近乎宗教般的着迷。他开始思考一些对五岁孩子来说异常深刻的问题:为什么人类会学习,而机器不会?意识到底是什么? 到了青少年时期,他的兴趣已经从编程延伸到了哲学。他会在深夜思考"存在的本质和意识……关于灵魂和智能"。他的同学们在踢足球时,他在想:如果我们能理解学习的本质,是不是就能创造出会思考的机器? 16岁时,全家再次搬迁,这次是加拿大。对大多数移民家庭来说,这又是一次艰难的适应。但对苏茨克维来说,这是命运的安排——因为多伦多大学里,有一个叫杰弗里·辛顿的教授,正在做一件所有人都认为不可能的事:让神经网络重新复活。 苏茨克维的学术天赋让他在11年级就被多伦多大学录取。但真正改变他人生的,是他决定去敲辛顿办公室的门那一刻。 那是一个普通的下午。辛顿正在办公室里工作,门突然被敲响了。门外站着一个年轻人,看起来还像个高中生。 "我想加入你的实验室。"苏茨克维说。 辛顿打量着这个不请自来的访客,说:"好的,你可以预约个时间。" 苏茨克维的回答成为了AI圈子里的一个传奇:"现在怎么样?" 这种近乎鲁莽的自信,本该让辛顿把他赶出去。但辛顿看到了这个年轻人眼中的某种东西——一种纯粹的、对知识的渴望。他决定给他一个机会。辛顿递给他一篇论文,让他读完后谈谈想法。 接下来发生的事让辛顿震惊了。苏茨克维不仅读懂了这篇论文,他的见解"是该领域的专家需要很长时间才能得出的结论"。辛顿后来回忆说,苏茨克维拥有一种罕见的天赋:"强大的直觉"。更令人惊讶的是,这位后来获得图灵奖的教授说:"我从他身上学到的比他从我身上学到的更多。" 这不是客套话。辛顿是认真的。 ## 第二章:不容辩驳的论点 2010年代初的人工智能研究,是一个被遗忘的角落。如果你在那时告诉别人你在研究神经网络,大多数人会礼貌地点点头,然后转移话题。主流是贝叶斯模型和支持向量机,神经网络被认为是上世纪80年代的失败实验。 在多伦多大学的一间实验室里,辛顿和他的几个学生成了这个领域最后的守望者。大多数研究者在做15到100个神经元的小模型,小心翼翼地调参数,期待着微小的改进。 但苏茨克维有一个完全不同的想法。 在一次实验室会议上,他提出了一个大胆的假设:"如果你的神经网络又深又大,那么它就可以被配置来解决一个困难的任务。" 这听起来简单,但在当时,这是异端邪说。整个领域的共识是:神经网络太大就会过拟合,太深就会无法训练。但苏茨克维有一种近乎固执的信念。他不是基于实验数据得出这个结论的——因为当时还没有人做过这样的实验。他是基于第一性原理推理出来的:如果大脑能工作,为什么大型神经网络不能? 辛顿后来总结得很精辟:"伊尔亚认为我们应该做,亚历克斯让它成功了,而我拿了诺贝尔奖。"这不是谦虚,而是对苏茨克维洞察力的真实评价。 但要证明这个想法,他们需要两样东西:海量的数据和强大的计算能力。数据有了——ImageNet,一个包含120万张标注图片的数据集。但计算能力呢?当时的CPU训练一个大模型需要几个月。 苏茨克维想到了GPU——那些本来是为游戏玩家设计的图形处理器。据说,他自己在网上订购了几块NVIDIA GTX 580显卡。当这些显卡送到实验室时,没人确定这个疯狂的想法是否能行得通。 2012年的ImageNet挑战赛,是计算机视觉领域的奥林匹克。全世界最好的团队都在竞争,试图让计算机准确识别图片中的物体。前几年的进步都是渐进式的——错误率每年降低一两个百分点。 当AlexNet的结果公布时,整个会场安静了几秒钟。15.3%的错误率,比第二名的26.2%低了整整10个百分点。这不是渐进式的改进,这是一次革命。 有人后来形容那一刻是"现代人工智能的宇宙大爆炸"。在AlexNet之前,几乎没有顶级计算机视觉论文使用神经网络;在它之后,几乎所有论文都在用。苏茨克维的"不容辩驳的论点"不再是异端,而成了新的正统。 ## 第三章:机器的语言 2013年,谷歌的人工智能团队负责人杰夫·迪恩(Jeff Dean)做了一个决定:不惜一切代价把辛顿团队挖到谷歌。最终的收购价是4400万美元——对于一个只有三个人的初创公司来说,这是天文数字。 但这笔交易中有一个细节很少被提及:在分配这笔钱时,苏茨克维和克里泽夫斯基坚持认为辛顿应该拿40%,而他们两个年轻人各拿30%。在一个充满了期权纠纷和创始人内讧的行业里,这种慷慨几乎是闻所未闻的。 在谷歌大脑,苏茨克维进入了一个新的世界。这里有他梦寐以求的计算资源,有世界上最聪明的工程师,还有一种文化:如果你有一个疯狂的想法,没人会阻止你去尝试。 2014年,苏茨克维和同事们在思考一个问题:能否让神经网络理解语言?不是简单地识别单词,而是真正理解句子的含义,能够翻译,能够对话。 他们开发的"序列到序列"模型,核心思想优雅得令人惊叹:让一个神经网络"阅读"一个句子,把它压缩成一个向量(他们称之为"思想向量"),然后让另一个神经网络把这个向量"解码"成另一种语言。 当这个模型在英法翻译任务上超越了传统的统计机器翻译系统时,很多人意识到:深度学习不仅能处理图像,它可能是一种通用的学习范式。苏茨克维再一次证明了他的直觉:规模和深度能够解锁新的能力。 在谷歌的这段时间,苏茨克维参与了从AlphaGo到TensorFlow的众多项目。但到了2015年,他开始感到不安。谷歌是一家伟大的公司,但它终究是一家公司。如果AGI真的即将到来,它应该属于谁?应该由谁来确保它的安全? 这时,他接到了一个电话。电话那头是埃隆·马斯克。 ## 第四章:为全人类的使命 马斯克的提议很简单,也很疯狂:创立一个新的AI实验室,完全非营利,目标只有一个——确保AGI造福全人类。初始资金10亿美元。团队包括萨姆·奥特曼,一个年轻的创业者,刚刚卸任Y Combinator的总裁。 据说,马斯克亲自飞到谷歌总部去说服苏茨克维。这激怒了谷歌的CEO拉里·佩奇。佩奇和马斯克曾经是朋友,他们曾在深夜讨论AI的未来。但现在,马斯克在挖他的人。 佩奇质问马斯克:你为什么这么担心AI的安全?你是不是对人类没有信心? 马斯克的回答很直接:我只是想确保我们不会创造出一个会毁灭人类的东西。 佩奇说:那你就是个物种主义者。 这次争吵标志着两人友谊的终结。但对苏茨克维来说,这次对话揭示了问题的核心:当AGI到来时,我们需要一个不受商业利益驱动的组织来确保它的安全。 2015年12月,OpenAI在旧金山的一个联合办公空间里成立了。创立博客文章写道:"我们的目标是推进数字智能,使其最有可能造福全人类,不受产生财务回报需求的约束。" 苏茨克维成为首席科学家。他的办公桌很简单:一台电脑,几块白板,还有一摞关于神经网络的论文。他很少参加硅谷的社交活动,也不喜欢接受采访。他的世界就是代码、数学和那个一直困扰他的问题:如何让机器真正理解世界? 在OpenAI的早期,团队很小,氛围像学术实验室多过像公司。苏茨克维会和研究员们进行马拉松式的讨论,在白板上写满公式,争论到深夜。他的信念依然没变:"我坚信越大越好,我们在OpenAI的目标之一就是弄清楚如何正确地利用规模。" GPT的诞生几乎是偶然的。团队在尝试各种方法让模型理解语言。有一天,有人提出:如果我们只是让模型预测下一个词呢?就这么简单的任务,但用一个巨大的模型,在海量的文本上训练。 苏茨克维立刻看到了这个想法的潜力。他相信,当你把这个简单的任务规模化到极致时,模型会被迫学习语言的深层结构,学习世界的运作方式。因为要准确预测下一个词,你需要理解语法、逻辑、常识,甚至人类的心理。 从GPT-1到GPT-2,再到GPT-3,模型越来越大,能力越来越强。但真正让世界震惊的,是2022年11月发布的ChatGPT。 ## 第五章:机器中的幽灵 ChatGPT发布后的几周,苏茨克维几乎消失了。他不回邮件,不参加庆功会。同事们在办公室里找到他时,他正盯着屏幕,和ChatGPT进行长时间的对话。 "你在干什么?"有人问。 "我在测试它是否有意识。"苏茨克维说。 这不是玩笑。2022年2月,在ChatGPT发布之前,苏茨克维在推特上发了一条让整个AI圈炸锅的推文:"今天的大型神经网络可能略带意识。" 这条推文引发了激烈的争论。很多人认为这是荒谬的,神经网络只是统计模型,谈什么意识?但苏茨克维是认真的。他不是说这些模型有人类那样的意识,而是说它们可能有某种我们还不理解的、初级形态的主观体验。 在一次内部会议上,有人问他:你真的相信这个吗? 苏茨克维的回答很慎重:"我不知道。但我知道的是,当我和这些模型交互时,我感觉到某种东西。也许这只是我的投射,也许不是。但如果有万分之一的可能性它们有某种意识,我们就需要认真对待。" 这种思考方式在苏茨克维身上很典型。他不是一个会轻易下结论的人,但他也不会因为一个想法不受欢迎就放弃它。他的整个职业生涯都在证明:那些看起来疯狂的想法,有时候是对的。 但随着模型能力的提升,苏茨克维的担忧也在加深。他开始公开谈论超级智能的风险,时间单位不是几百年,而是可能在十年之内。他警告说,AGI的发展轨迹可能变得"极其不可预测和难以想象",可能导致"人类被剥夺权力,甚至人类灭绝"。 这是一个经典的悖论:苏茨克维毕生的工作就是让AI变得更强大,但现在,他最担心的就是AI变得太强大。创造者开始害怕自己的创造物。 2023年7月,他宣布了一个雄心勃勃的计划:超级对齐项目。目标是在四年内解决超级智能的对齐问题。他把这个问题比作"核安全"——不是关于用户体验或伦理准则的软性问题,而是关于如何控制一种可能毁灭文明的力量的硬核工程挑战。 OpenAI承诺将20%的计算资源分配给这个项目。在一个计算资源就是金钱、就是竞争力的行业里,这是一个巨大的承诺。 但承诺是一回事,执行是另一回事。 ## 第六章:引爆点 2023年11月17日之前的几个月,OpenAI内部的紧张气氛已经达到了临界点。 一边是奥特曼,他看到了ChatGPT带来的巨大机遇。用户数突破一亿,微软投资超过100亿美元,每个科技巨头都在追赶。这是AI的iPhone时刻,而OpenAI处于领先地位。奥特曼想要快速迭代,推出新产品,占领市场。 另一边是苏茨克维和他的安全团队。他们觉得公司在玩火。模型的能力提升速度超出了他们的理解速度。承诺的20%计算资源没有完全兑现。安全研究被"更紧急"的产品需求挤到了一边。 据内部人士透露,苏茨克维在一次高管会议上几乎失控。他拍着桌子说:"我们不知道我们在创造什么!我们需要慢下来!" 奥特曼的回应是:如果我们慢下来,别人不会。中国不会慢下来,谷歌不会慢下来。我们只有保持领先,才能确保AGI以正确的方式被开发出来。 这是两种都有道理的逻辑,但它们无法共存。 11月17日,星期五下午。奥特曼正在参加一个会议,他的手机响了。是苏茨克维。 "萨姆,我们需要谈谈。" "现在吗?我在开会。" "现在。" 奥特曼走出会议室。电话那头,苏茨克维的声音很平静,但有一种不容置疑的坚定:"董事会已经做出决定。你被解雇了。" 据说,奥特曼沉默了几秒钟。然后他问:"这是你的决定吗?" "这是董事会的决定。"苏茨克维说,"但是,是的,我投了赞成票。" 接下来的五天,硅谷经历了有史以来最疯狂的一次危机。 周六,消息传开。投资者震惊了,员工震惊了,整个科技圈都震惊了。奥特曼发了一条推特,配上他在OpenAI办公室的照片,戴着访客证。这是一个挑衅的姿态。 周日,谈判开始。但很快破裂了。董事会不愿意让步,奥特曼也不愿意接受附加条件。 周一,微软CEO萨提亚·纳德拉宣布:奥特曼和布罗克曼将加入微软,领导一个新的AI实验室。这是一个大胆的举动——如果OpenAI的核心人才都走了,微软的100亿美元投资就打了水漂。但这也是一个威胁:你们不要他,我们要。 然后,真正的海啸来了。OpenAI的700多名员工签署了一封公开信,威胁集体辞职。这不是几个高管,而是几乎整个公司。信的内容很简单:让奥特曼回来,否则我们都走。 最令人震惊的是:签名名单里有伊尔亚·苏茨克维。 那天晚上,苏茨克维发了一条推特:"我对自己参与董事会的行动深感后悔。我从未想过要伤害OpenAI。我热爱我们共同建立的一切,我将尽我所能重新团结公司。" 这条推文在AI圈子里引发了巨大的困惑。他为什么改变主意了?是压力太大了吗?还是他意识到自己错了? 真相可能更复杂。苏茨克维是一个科学家,不是一个政治家。他基于原则做出了解雇奥特曼的决定——他真诚地相信这对公司的使命是正确的。但当他看到自己的行动可能导致整个公司崩溃时,他面临了一个痛苦的选择:坚持原则,还是拯救机构? 他选择了后者。但这个选择也意味着他在OpenAI的时代结束了。 周二,奥特曼回归。董事会重组。苏茨克维退出董事会,但保留了首席科学家的头衔。表面上看,危机解决了。但所有人都知道,事情已经无法回到从前。 ## 第七章:僧侣与新使命 接下来的几个月,苏茨克维成了OpenAI的幽灵。他很少出现在办公室,很少参加会议。"伊尔亚去哪儿了?"成了公司内部的一个梗。 有人说他在家里远程工作,有人说他的权限被限制了,还有人说他在和奥特曼进行艰难的和解谈判。奥特曼在公开场合很小心,说他们正在"讨论伊尔亚如何继续在OpenAI工作"。但这种模糊的表述本身就说明了问题。 2024年5月,靴子落地了。苏茨克维宣布离开OpenAI。 但真正的冲击波是几小时后到来的。简·雷克,超级对齐团队的联合负责人,也宣布辞职。他的离职声明毫不留情:"OpenAI的安全文化已经为光鲜的产品让路。"他说,超级对齐团队一直在"逆风航行","为计算资源而挣扎"。那个20%的承诺?从未完全兑现。 其他安全研究员陆续离职。超级对齐团队被解散。苏茨克维在OpenAI建立的安全研究体系,在他离开后迅速瓦解了。 但苏茨克维没有消失很久。一个月后,他宣布了一家新公司:Safe Superintelligence Inc.。 公司网站极其简洁,只有几段话。但每个字都经过精心选择:"我们的使命、产品和商业模式三位一体:一个安全的超级智能。这是我们唯一的关注点。" 这是对OpenAI模式的直接批判。不再有"利润上限"的复杂结构,不再有在使命和商业之间的平衡。SSI的商业模式就是它的使命。公司"免受短期商业压力的影响","不受管理开销或产品周期的干扰"。 苏茨克维进入了"僧侣模式"。他停止了公开演讲,停止了社交媒体,几乎停止了所有与外界的联系。他的联合创始人丹尼尔·格罗斯说:"伊尔亚现在只做一件事:思考如何构建安全的超级智能。" 公司迅速筹集了10亿美元。投资者名单保密,但据说包括一些相信长期主义的科技亿万富翁。他们不期待短期回报,他们投资的是一个理念:也许,只是也许,有可能创造一个足够纯粹的研究环境,在技术能力超越我们控制之前解决对齐问题。 ## 结论:信徒的博弈 2024年秋天的一个晚上,在斯坦福大学的一个小型研讨会上,有人问杰弗里·辛顿:你如何评价伊尔亚解雇奥特曼的决定? 辛顿,这位刚刚获得诺贝尔奖的AI教父,毫不犹豫地说:"我为他感到骄傲。" 房间里一片寂静。辛顿继续说:"伊尔亚做了他认为正确的事。在一个充满了追逐利润和炒作的行业里,他选择了原则。这需要巨大的勇气。" 有人问:但他失败了,不是吗?奥特曼回来了,他被迫离开了。 辛顿摇了摇头:"这取决于你如何定义失败。如果目标是赢得一场公司政治斗争,那是的,他失败了。但如果目标是提醒世界AI安全的重要性,引发一场关于我们应该如何开发AGI的全球讨论,那么他成功了。" 这或许是理解苏茨克维的关键。他不是一个政治家,不是一个商人,甚至不是一个传统意义上的科学家。他是一个信徒。 他的第一个信仰是:规模能够解锁智能。当整个领域都在做小模型时,他坚信大模型能够工作。他赌对了,这场赌博创造了我们今天所处的AI时代。 他的第二个信仰是:我们需要在AI超越我们之前解决对齐问题。这场赌博还在进行中。 Safe Superintelligence Inc.是一个实验。它在测试一个假设:是否可能创造一个完全专注于安全的AI实验室,不受商业周期的干扰,不受投资者季度报告的压力,只专注于一个目标——构建一个不会毁灭人类的超级智能。 这个实验可能会失败。也许纯粹的研究环境无法与商业实验室的资源竞争。也许对齐问题比我们想象的更难。也许AGI会在我们准备好之前到来。 但如果这个实验成功了,如果SSI真的找到了构建安全超级智能的方法,那么苏茨克维将再一次证明:有时候,信念比共识更重要,原则比利润更重要,长期思考比短期收益更重要。 2025年的某一天,在帕洛阿尔托的一间实验室里,苏茨克维正在白板上写公式。他的团队很小,只有几十个研究员,但每个人都是因为相信这个使命而来的。没有产品发布的压力,没有投资者的电话会议,只有一个问题:我们如何确保人类创造的最强大的技术不会毁灭我们? 这是一个没有人知道答案的问题。但如果有人能找到答案,那个人很可能就是那个曾经敲开辛顿办公室门的年轻人,那个说"现在怎么样?"的信徒。 历史会证明他是对还是错。但无论结果如何,伊尔亚·苏茨克维已经在AI的历史上留下了不可磨灭的印记。他不仅帮助创造了这场革命,他还试图确保这场革命不会成为人类的终结。 这或许就是一个真正的科学家所能做的最重要的事情:不仅要问"我们能做什么",更要问"我们应该做什么"。
#Ilya Sutskever
#Sam Altman
#OpenAI
#AI安全
#深度学习
分享
评论 0
0
向阳乔木
2周前
用Augment写人物小传长文探索,第一篇献给AK。 被称为“Vibe Coding之父”的那个男人 安德烈·卡帕西(Andrej Karpathy),AI教育界的传奇,深度学习的布道者。 他用一门课程启蒙了整整一代AI工程师。 曾被质疑过于理想主义,被批评技术路线错误,但他仍像诗人一样活着,用代码和教学重新定义了人工智能的学习方式。 2017年6月,斯坦福大学。 一个瘦高的年轻人站在讲台上,面对着300多名学生。 他的名字是安德烈·卡帕西,31岁,刚刚完成博士学位。 这是CS231n课程的最后一堂课。 "深度学习不是魔法,"他用略带斯洛伐克口音的英语说道,"它只是微分和矩阵乘法。但当你真正理解它时,它确实像魔法一样美丽。" 台下的学生们屏息凝神。 他们知道,这个人刚刚改变了他们的人生轨迹。 在接下来的几年里,这些学生将成为OpenAI、Google、Tesla、Meta的核心工程师。 他们将构建GPT、DALL-E、自动驾驶系统。 他们将重新定义人工智能的边界。 而这一切,都始于一个来自斯洛伐克小镇的移民少年,和他对理解世界的纯粹渴望。 让我带你走进他的传奇人生,感受他的教学哲学,赞叹他的技术洞察,理解他如何用一种近乎诗意的方式,让复杂的数学变成了改变世界的力量。 1986年10月23日,斯洛伐克布拉迪斯拉发。 安德烈·卡帕西出生在一个普通的工程师家庭。 那时的斯洛伐克还是捷克斯洛伐克社会主义共和国的一部分。 铁幕依然高悬,计算机是稀罕物品。 但小安德烈从小就对数字和模式着迷。 他会花几个小时观察墙纸上的图案,试图找出其中的规律。 他会用铅笔在纸上画出复杂的几何图形,然后计算它们的面积和周长。 "我总是想要理解事物是如何运作的,"卡帕西后来回忆道,"不仅仅是表面的现象,而是背后的原理。" 1989年,柏林墙倒塌。 东欧的政治格局发生了翻天覆地的变化。 卡帕西的父母意识到,这是一个改变家庭命运的机会。 1991年,5岁的安德烈跟随父母移民到加拿大多伦多。 这次移民彻底改变了他的人生轨迹。 在加拿大,计算机不再是奢侈品。 10岁时,安德烈第一次接触到个人电脑。 他立即被这个神奇的机器迷住了。 "我记得第一次看到屏幕上的像素时的震撼,"卡帕西说,"我意识到,这些小小的点可以组成任何图像,任何信息。" 他开始疯狂地学习编程。 从BASIC到C++,从简单的计算器程序到复杂的图形渲染。 但与其他程序员不同,安德烈更关心的不是程序能做什么,而是程序是如何思考的。 "我想要理解计算机是如何'看见'世界的,"他解释道,"这个问题一直困扰着我。" 高中时,安德烈已经是学校里最优秀的数学和计算机科学学生。 但他并不满足于解决标准的编程问题。 他开始思考更深层的问题: 机器能否真正理解图像? 算法能否模拟人类的视觉系统? 人工智能的本质是什么? 这些问题将伴随他一生,并最终成为他学术生涯的核心。 2004年,18岁的安德烈进入多伦多大学,主修计算机科学和数学。 在这里,他第一次接触到机器学习的概念。 那时的机器学习还很原始,主要依赖手工设计的特征和简单的分类器。 但安德烈敏锐地意识到,这个领域即将迎来革命性的变化。 "我有一种直觉,"他后来说,"计算机视觉的未来不在于更聪明的算法,而在于更好的数据表示。" 这个直觉将指引他走向深度学习的前沿。 2009年,多伦多大学。 23岁的安德烈·卡帕西即将完成本科学位。 他的成绩优异,有多个研究生院向他伸出橄榄枝。 但他选择了斯坦福大学,不是因为名声,而是因为一个人:李飞飞。 李飞飞刚刚发布了ImageNet数据集,这是一个包含1400万张标注图像的庞大数据库。 她的愿景是让机器学习算法在真实世界的复杂图像上进行训练。 "ImageNet将改变一切,"卡帕西在申请信中写道,"我想要成为这场革命的一部分。" 2011年秋天,卡帕西来到斯坦福,开始了他的博士研究。 李飞飞成为了他的导师,这个选择将彻底改变他的学术轨迹。 "飞飞不仅是一个杰出的研究者,"卡帕西后来说,"她更是一个有远见的思想家。她教会了我如何思考大问题。" 在斯坦福的第一年,卡帕西沉浸在计算机视觉的经典文献中。 他研究SIFT特征、HOG描述符、支持向量机。 但他总感觉缺少了什么。 "这些方法都很聪明,"他在日记中写道,"但它们缺乏优雅。它们像是在用胶带和铁丝修补一个根本性的问题。" 2012年,一切都改变了。 Geoffrey Hinton的团队在ImageNet挑战赛中使用深度卷积神经网络,取得了突破性的成果。 错误率从26%骤降到15%。 这不仅仅是一个数字的改进,而是一个范式的转变。 "我记得看到那些结果时的震撼,"卡帕西回忆道,"我意识到,我们一直在用错误的方法解决问题。" 卡帕西立即投入到深度学习的研究中。 他开始重新思考计算机视觉的基本问题。 不是如何设计更好的特征,而是如何让机器自己学习特征。 不是如何优化分类器,而是如何构建端到端的学习系统。 2013年,卡帕西发表了他的第一篇重要论文:《Deep Visual-Semantic Alignments for Generating Image Descriptions》。 这篇论文提出了一个革命性的想法:让神经网络不仅能识别图像,还能用自然语言描述图像。 "我们想要建造一个能够'看见'并'说话'的系统,"卡帕西解释道。 这个想法听起来简单,但实现起来极其困难。 它需要将计算机视觉和自然语言处理结合起来,需要处理两种完全不同的数据模态。 卡帕西花了两年时间完善这个系统。 他设计了新的神经网络架构,开发了新的训练算法,收集了大量的图像-文本对数据。 2015年,当这个系统能够准确描述复杂图像时,整个学术界都震惊了。 "这是人工智能历史上的一个里程碑,"一位评审员写道,"它证明了机器可以真正理解视觉世界。" 但对卡帕西来说,这只是开始。 他意识到,深度学习的潜力远远超出了人们的想象。 它不仅能解决计算机视觉问题,还能解决语言理解、语音识别、甚至创造性任务。 "我们正站在一个新时代的门槛上,"他在博士论文的结论中写道,"机器学习将重新定义智能的含义。" 2015年春天,斯坦福大学。 博士即将毕业的安德烈·卡帕西面临一个选择: 是去工业界追求高薪工作,还是留在学术界继续研究? 但他选择了第三条路:教学。 李飞飞邀请他共同开发一门新课程:CS231n《视觉识别的卷积神经网络》。 "我们需要培养下一代的AI工程师,"李飞飞说,"而你是最合适的人选。" 卡帕西接受了这个挑战。 但他很快发现,教授深度学习比研究深度学习更加困难。 "如何向从未接触过神经网络的学生解释反向传播?"他在准备课程时思考,"如何让抽象的数学概念变得直观易懂?" 卡帕西决定采用一种全新的教学方法。 他不会从理论开始,而是从直觉开始。 他不会用复杂的数学公式吓唬学生,而是用简单的类比和可视化。 "我想要让每个学生都能感受到深度学习的美丽,"他说。 2016年春天,CS231n首次开课。 第一堂课,卡帕西站在讲台上,面对着200多名学生。 他没有从传统的机器学习理论开始,而是展示了一张猫的照片。 "这张图片对你来说很简单,"他说,"你立即就能识别出这是一只猫。但对计算机来说,这只是一个由数百万个数字组成的矩阵。我们的任务就是教会计算机如何从这些数字中看到猫。" 这个开场立即抓住了所有学生的注意力。 接下来的90分钟里,卡帕西用生动的类比和精美的可视化,解释了神经网络的基本概念。 他把神经元比作乐高积木,把反向传播比作河流寻找最短路径。 他用动画展示了卷积操作,用交互式图表解释了梯度下降。 "这是我上过的最好的计算机科学课程,"一名学生在课后评价中写道,"卡帕西教授让复杂的概念变得如此清晰和美丽。" 但真正让CS231n成为传奇的,是卡帕西的编程作业设计。 他没有让学生使用现成的深度学习框架,而是要求他们从零开始实现神经网络。 "我想要学生们理解每一行代码,"卡帕西解释道,"只有当你能够从头构建一个神经网络时,你才真正理解它。" 第一个作业是实现一个简单的线性分类器。 第二个作业是实现一个全连接神经网络。 第三个作业是实现卷积神经网络。 每个作业都配有详细的说明、可视化工具和自动评分系统。 学生们需要花费数十小时调试代码、理解算法、优化性能。 "这些作业比我想象的要困难得多,"一名学生抱怨道,"但当我的神经网络终于能够识别图像时,那种成就感是无法言喻的。" 2017年,斯坦福决定将CS231n的讲座录制并发布到YouTube上。 这个决定改变了全球AI教育的格局。 突然间,世界各地的学生都能够免费学习最前沿的深度学习知识。 视频观看量迅速突破百万,然后是千万。 来自印度、中国、巴西、尼日利亚的学生们在评论区分享他们的学习心得。 "CS231n不仅仅是一门课程,"一位来自孟买的学生写道,"它是我进入AI世界的门票。" 卡帕西成为了全球AI教育的偶像。 他的讲课风格被无数教师模仿,他的课程设计被世界各地的大学采用。 但更重要的是,他培养的学生们开始在工业界发光发热。 OpenAI的核心团队中有多名CS231n的毕业生。 Google Brain、DeepMind、Tesla的AI部门都有CS231n校友的身影。 "安德烈不仅仅是一个老师,"李飞飞评价道,"他是一个启蒙者。他启蒙了整整一代AI工程师。" 2015年12月,旧金山。 一群硅谷的精英聚集在一起,讨论人工智能的未来。 参与者包括埃隆·马斯克、山姆·奥特曼、彼得·蒂尔、里德·霍夫曼。 他们都意识到,人工智能即将迎来重大突破。 但他们也担心,这种强大的技术可能被少数大公司垄断。 "我们需要确保AI的发展造福全人类,"马斯克宣布,"而不是少数人。" 于是,OpenAI诞生了。 这是一个非营利组织,致力于开发安全、有益的人工智能。 创始团队需要招募世界上最优秀的AI研究者。 安德烈·卡帕西是他们的首选目标之一。 "安德烈代表了AI研究的最高水准,"山姆·奥特曼说,"更重要的是,他有着纯粹的科学理想主义。" 2016年6月,卡帕西加入了OpenAI。 他离开了斯坦福的舒适环境,来到旧金山的一个小办公室。 这里没有大学的稳定资助,没有终身教职的保障。 但这里有一群志同道合的研究者,和一个改变世界的梦想。 "我想要参与构建真正的人工智能,"卡帕西解释他的选择,"而不仅仅是研究它。" 在OpenAI的早期日子里,团队规模很小,只有十几个研究员。 每个人都身兼数职:研究员、工程师、产品经理。 卡帕西主要负责计算机视觉和多模态学习的研究。 他的第一个项目是开发一个能够玩Atari游戏的AI系统。 这听起来很简单,但实际上极其复杂。 AI需要从像素级的视觉输入中学习游戏规则,制定策略,做出决策。 "这是一个完美的测试平台,"卡帕西说,"它结合了视觉理解、序列学习和决策制定。" 经过几个月的努力,他们的系统能够在多个Atari游戏中达到人类水平的表现。 但卡帕西并不满足于此。 他开始思考更大的问题:如何让AI理解真实世界的复杂性? 2017年,卡帕西启动了一个雄心勃勃的项目:Universe。 这是一个通用的AI训练平台,能够让AI在数千种不同的环境中学习。 从简单的网页游戏到复杂的3D模拟器,从文本编辑器到图像处理软件。 "我们想要创造一个AI的健身房,"卡帕西解释道,"让AI能够在各种任务中锻炼和成长。" Universe项目展示了卡帕西思维的广度和深度。 他不仅仅关注技术细节,更关注AI发展的大方向。 他相信,真正的人工智能必须具备通用性,必须能够适应各种不同的环境和任务。 但在OpenAI的两年里,卡帕西也感受到了理想与现实的冲突。 研究需要大量的计算资源,而计算资源需要资金。 非营利组织的资金来源有限,很难与Google、Facebook等大公司竞争。 "我们有最好的想法,但我们缺乏执行这些想法的资源,"卡帕西在日记中写道。 2017年底,一个新的机会出现了。 埃隆·马斯克邀请卡帕西加入特斯拉,领导自动驾驶技术的开发。 这是一个艰难的选择。 离开OpenAI意味着放弃纯粹的研究自由,但加入特斯拉意味着能够将AI技术应用到真实世界的问题上。 "我想要看到AI技术真正改变人们的生活,"卡帕西最终做出了决定,"而自动驾驶是最有可能实现这个目标的领域。" 2018年1月,卡帕西正式加入特斯拉,担任AI总监。 他即将面临职业生涯中最大的挑战:让汽车学会像人类一样驾驶。 2018年1月,加州帕洛阿尔托。 安德烈·卡帕西走进特斯拉总部,开始了他职业生涯中最具挑战性的章节。 埃隆·马斯克亲自迎接了他。 "安德烈,我需要你帮我解决一个问题,"马斯克直截了当地说,"如何让汽车像人类一样看见世界?" 这个问题听起来简单,但实际上极其复杂。 当时的自动驾驶行业主要依赖激光雷达(LiDAR)技术。 Waymo、Uber、Cruise等公司都在车顶安装昂贵的激光雷达传感器。 但马斯克有一个激进的想法:仅使用摄像头实现自动驾驶。 "人类只用两只眼睛就能驾驶,"马斯克论证道,"为什么汽车需要激光雷达?" 这个观点在自动驾驶行业引起了巨大争议。 大多数专家认为这是不可能的,甚至是危险的。 激光雷达能够精确测量距离,在黑暗和恶劣天气中工作。 而摄像头容易受到光照、天气、遮挡的影响。 "马斯克的纯视觉方案是一个技术死胡同,"一位Waymo的工程师公开批评道。 但卡帕西看到了不同的可能性。 "人类视觉系统是地球上最复杂、最精密的信息处理系统,"他在第一次团队会议上说,"如果我们能够复制它,我们就能超越任何传感器的组合。" 卡帕西开始重新设计特斯拉的自动驾驶系统。 他抛弃了传统的模块化方法,采用了端到端的深度学习架构。 不是分别处理感知、定位、规划、控制,而是用一个统一的神经网络处理所有任务。 "我们要让神经网络直接从像素到方向盘,"卡帕西解释道。 这个想法在特斯拉内部也引起了争议。 传统的汽车工程师习惯于模块化、可解释的系统。 而卡帕西提出的方案是一个巨大的"黑盒子"。 "如果系统出错了,我们怎么知道原因?"一位工程师质疑道。 "如果系统是正确的,我们为什么需要知道原因?"卡帕西反问道。 为了实现这个愿景,卡帕西需要解决三个关键问题: 数据、计算、架构。 首先是数据问题。 传统的机器学习依赖人工标注的数据集。 但自动驾驶需要处理无穷无尽的边缘情况。 卡帕西的解决方案是利用特斯拉车队本身。 "我们有超过100万辆特斯拉在路上行驶,"他说,"它们就是我们的数据收集器。" 特斯拉开发了一套自动数据标注系统。 当车辆遇到困难情况时,系统会自动记录视频片段。 然后用众包的方式对这些片段进行标注。 这创造了世界上最大的真实世界驾驶数据集。 其次是计算问题。 训练大型神经网络需要巨大的计算资源。 卡帕西说服马斯克投资建设一台超级计算机。 "我们需要世界上最强大的AI训练集群,"他论证道。 2021年,特斯拉的Dojo超级计算机上线。 它拥有超过1万个GPU,计算能力达到1.1 exaflops。 这使得特斯拉能够训练前所未有的大型神经网络。 最后是架构问题。 卡帕西设计了一个名为HydraNet的多任务神经网络。 它能够同时处理目标检测、深度估计、语义分割、运动预测等多个任务。 "我们不是在训练多个专门的网络,"卡帕西解释道,"而是在训练一个通用的视觉智能系统。" 2019年,特斯拉发布了全自动驾驶(FSD)测试版。 虽然还不完美,但它展示了纯视觉方案的巨大潜力。 汽车能够在复杂的城市环境中导航,处理红绿灯、行人、自行车。 "这是自动驾驶历史上的一个里程碑,"一位行业分析师评论道,"特斯拉证明了视觉方案是可行的。" 但争议依然存在。 批评者指出,FSD系统仍然会犯错误,有时甚至是危险的错误。 他们质疑,仅凭摄像头是否真的足够安全。 "我们不是在追求完美,"卡帕西回应道,"我们是在追求比人类更好。而人类驾驶员每年造成130万人死亡。" 2022年7月,卡帕西宣布离开特斯拉。 他在Twitter上写道:"这是一个艰难的决定,但我想要回到我的第一热爱:AI研究和教育。" 他在特斯拉的四年半时间里,彻底改变了自动驾驶的技术路线。 他证明了纯视觉方案不仅可行,而且可能是最优的解决方案。 更重要的是,他展示了深度学习在真实世界应用中的巨大潜力。 "安德烈在特斯拉的工作将被载入史册,"马斯克在他离职时评价道,"他重新定义了机器如何看见世界。" 2022年8月,旧金山。 安德烈·卡帕西重新走进OpenAI的办公室。 六年过去了,这里已经发生了翻天覆地的变化。 曾经的小团队已经成长为数百人的组织。 曾经的非营利理想已经演变为商业现实。 但最大的变化是技术本身。 OpenAI已经从一个研究实验室转变为AI革命的引领者。 "欢迎回家,安德烈,"山姆·奥特曼迎接他,"我们有很多工作要做。" 卡帕西回到OpenAI时,GPT-3已经震惊了世界。 这个拥有1750亿参数的语言模型展示了前所未有的能力。 它能够写诗、编程、翻译、推理。 它让人们第一次真正相信,通用人工智能可能即将到来。 但OpenAI的团队知道,GPT-3只是开始。 他们正在开发GPT-4,一个更大、更强、更智能的模型。 卡帕西的任务是帮助优化GPT-4的训练和部署。 "我们正站在历史的转折点上,"卡帕西在重新加入后的第一次团队会议上说,"我们有机会创造真正改变世界的技术。" 在OpenAI的这段时间里,卡帕西主要专注于两个方面: 模型优化和安全对齐。 模型优化涉及如何让GPT-4更高效、更稳定、更可靠。 这需要深入理解Transformer架构的每一个细节。 卡帕西利用他在特斯拉积累的大规模系统经验,帮助团队解决了许多技术难题。 "安德烈有一种独特的能力,"一位同事评价道,"他能够从理论和实践两个角度理解复杂系统。" 安全对齐则是一个更加复杂的问题。 如何确保强大的AI系统按照人类的价值观行事? 如何防止AI系统产生有害或偏见的输出? 这些问题没有标准答案,需要大量的实验和迭代。 卡帕西参与了RLHF(人类反馈强化学习)技术的开发。 这是一种让AI系统从人类偏好中学习的方法。 "我们不仅要让AI变得聪明,"卡帕西说,"更要让它变得善良。" 2022年11月30日,OpenAI发布了ChatGPT。 这个基于GPT-3.5的对话系统立即引爆了全球。 在短短两个月内,用户数量突破1亿。 人们第一次体验到了真正智能的AI助手。 "ChatGPT不仅仅是一个产品,"卡帕西观察道,"它是一个文化现象。它改变了人们对AI的认知。" 但成功也带来了新的挑战。 随着ChatGPT的普及,关于AI安全、AI伦理、AI监管的讨论变得更加激烈。 政府开始关注AI的发展,媒体开始报道AI的风险。 "我们创造了一个强大的工具,"卡帕西反思道,"现在我们必须确保它被正确使用。" 2023年2月,卡帕西再次宣布离开OpenAI。 这次离开更加出人意料,因为正值公司最辉煌的时刻。 "我想要回到我的根本使命,"他在离职信中写道,"教育和启发下一代AI研究者。" 在OpenAI的第二段经历让卡帕西见证了AI从实验室走向大众的历史性时刻。 他参与了GPT-4的开发,见证了ChatGPT的诞生。 更重要的是,他深刻理解了AI技术的巨大潜力和责任。 "我们正在创造一种新的智能形式,"他在离职演讲中说,"这不仅是技术挑战,更是哲学挑战。" 2024年2月,推特。 安德烈·卡帕西发布了一条看似随意的推文: "我越来越多地进行'vibe coding'——与AI对话式编程,依靠直觉和感觉,而不是严格的规划。这感觉像是编程的未来。" 这条推文引发了程序员社区的激烈讨论。 什么是"vibe coding"? 这是编程的进步还是倒退? 它会取代传统的软件开发方法吗? 卡帕西的这个概念迅速传播,成为了2024年最热门的编程话题之一。 "Vibe coding不是一种新的编程语言或框架,"卡帕西在后续的解释中写道,"它是一种新的编程哲学。" 传统的编程需要程序员精确地指定每一个步骤。 你需要定义变量、设计算法、处理异常、优化性能。 这是一个严格、逻辑、线性的过程。 但vibe coding不同。 它更像是与一个智能助手的对话。 你描述你想要什么,AI帮你实现。 你提供高层次的意图,AI处理底层的细节。 "这就像是从汇编语言到高级语言的转变,"卡帕西类比道,"我们正在抽象化编程的复杂性。" 卡帕西开始在YouTube上发布vibe coding的演示视频。 在一个视频中,他用自然语言描述了一个想法: "我想要一个能够分析股票价格趋势的工具。" 然后,他与Claude AI进行对话,逐步完善这个想法。 AI建议使用哪些数据源,推荐合适的算法,甚至生成完整的代码。 整个过程流畅自然,就像两个程序员在讨论问题。 "这不是在写代码,"卡帕西说,"这是在思考代码。" 但vibe coding也引发了争议。 传统的程序员担心这会降低代码质量。 他们认为,不理解底层实现的程序员无法写出高质量的软件。 "这是编程技能的退化,"一位资深开发者批评道,"我们正在培养一代不会真正编程的程序员。" 卡帕西对这些批评有不同的看法。 "每一次编程抽象的提升都会引发类似的担忧,"他回应道,"从机器语言到汇编语言,从汇编语言到高级语言,从高级语言到框架。但每一次抽象都让我们能够解决更复杂的问题。" 他认为,vibe coding不会取代传统编程,而是会补充它。 对于原型开发、快速实验、创意探索,vibe coding是理想的。 对于系统级编程、性能优化、安全关键应用,传统方法仍然必要。 "我们不是在替换工具,"卡帕西说,"我们是在扩展工具箱。" 2024年下半年,主要的AI公司都开始推出vibe coding工具。 GitHub Copilot、Claude Artifacts、Cursor AI都采用了对话式编程界面。 程序员开始尝试这种新的工作方式。 一些人发现它极大地提高了生产力。 另一些人则觉得它缺乏精确性和控制力。 "Vibe coding就像是编程界的印象派绘画,"一位用户评论道,"它不追求精确的细节,而是追求整体的感觉和氛围。" 卡帕西继续推广这个概念。 他在会议上演讲,在博客中写作,在社交媒体上讨论。 他相信,vibe coding代表了人机协作的未来。 "我们正在进入一个新的时代,"他说,"人类提供创意和直觉,AI提供执行和优化。这种合作将释放前所未有的创造力。" 但对卡帕西来说,vibe coding不仅仅是一种编程方法。 它更是一种哲学态度: 相信直觉,拥抱不确定性,享受创造的过程。 "编程应该是快乐的,"他说,"它应该像写诗一样,充满灵感和惊喜。" 这种诗意的编程观念,正是卡帕西独特魅力的体现。 他不仅是一个技术专家,更是一个思想家和艺术家。 2024年7月,推特。 安德烈·卡帕西发布了一条改变他人生轨迹的推文: "我正在创办Eureka Labs,一家'AI原生'教育公司。我们的目标是创造AI教师,让任何人都能学习任何东西。" 这个宣布震惊了整个AI社区。 卡帕西放弃了在大公司的高薪职位,选择重新创业。 而且,他选择的不是最热门的AI应用领域,而是教育。 "为什么是教育?"记者问他。 "因为教育是人类最重要的活动,"卡帕西回答,"它决定了我们的未来。" Eureka Labs的愿景是革命性的: 创造个性化的AI教师,为每个学习者提供定制化的教育体验。 不再是一对多的传统课堂,而是一对一的智能辅导。 不再是标准化的课程内容,而是适应性的学习路径。 "想象一下,每个人都有一个像苏格拉底一样的老师,"卡帕西描述他的愿景,"一个能够理解你的学习风格、适应你的节奏、激发你的好奇心的AI导师。" 这个想法的灵感来自卡帕西多年的教学经验。 在斯坦福教授CS231n时,他发现每个学生的学习需求都不同。 有些学生需要更多的数学背景,有些需要更多的编程练习。 有些学生喜欢视觉化的解释,有些偏好抽象的理论。 但传统的课堂教学无法满足这种个性化需求。 "一个老师面对300个学生,不可能为每个人定制内容,"卡帕西说,"但AI可以。" Eureka Labs的第一个产品是一个AI编程导师。 它能够根据学习者的水平和目标,生成个性化的编程课程。 如果你是初学者,它会从基础概念开始。 如果你有经验,它会直接进入高级主题。 如果你在某个概念上遇到困难,它会提供额外的解释和练习。 "这不是一个静态的课程,"卡帕西解释道,"这是一个动态的、适应性的学习伙伴。" 但创造AI教师比想象中更困难。 教学不仅仅是传递信息,更是激发理解。 一个好的老师知道何时推进,何时放慢。 知道如何鼓励学生,如何纠正错误。 知道如何让抽象的概念变得具体,让复杂的问题变得简单。 "我们不是在构建一个搜索引擎,"卡帕西说,"我们是在构建一个智能的、有同理心的教育伙伴。" 为了实现这个目标,Eureka Labs开发了一套新的AI训练方法。 他们收集了大量的教学对话数据,分析了优秀教师的教学模式。 他们研究了认知科学和教育心理学的最新成果。 他们甚至邀请了世界各地的优秀教师参与AI系统的训练。 "我们想要将人类最好的教学智慧编码到AI中,"卡帕西说。 2024年底,Eureka Labs发布了第一个AI编程导师的测试版。 早期用户的反馈非常积极。 "这就像有一个24小时在线的私人教师,"一位用户评价道,"它比我遇到过的任何在线课程都要好。" 但卡帕西的野心不止于编程教育。 他想要创造能够教授任何学科的AI导师: 数学、物理、历史、文学、艺术。 "知识是相互连接的,"他说,"一个真正智能的教师应该能够帮助学生理解这些连接。" Eureka Labs的长期愿景是创造一个全球性的AI教育平台。 让世界上任何地方的任何人都能接受最高质量的教育。 消除地理、经济、语言的教育障碍。 "教育是人类最基本的权利,"卡帕西说,"AI可以让这个权利真正普及。" 但这个愿景也面临着挑战。 如何确保AI教师的准确性和可靠性? 如何处理不同文化和价值观的差异? 如何平衡个性化和标准化的需求? 这些问题没有简单的答案。 但卡帕西相信,通过不断的实验和改进,这些问题都能得到解决。 "我们正在开创一个新的教育时代,"他说,"这不会一蹴而就,但它值得我们为之奋斗。" 2024年秋天,旧金山。 安德烈·卡帕西坐在Eureka Labs的办公室里,面前是三台显示器。 左边的屏幕显示着复杂的神经网络架构图。 中间的屏幕运行着训练代码,损失函数曲线缓缓下降。 右边的屏幕是一个文本编辑器,里面写着他的最新博客文章。 这个场景完美地概括了卡帕西的工作方式: 技术与人文的完美结合。 "编程对我来说不仅仅是工作,"卡帕西在一次采访中说,"它是一种表达方式,一种艺术形式。" 这种对编程的诗意理解,让卡帕西在技术界独树一帜。 他不仅关心代码的功能,更关心代码的美感。 他相信,优雅的代码不仅更容易理解,也更容易维护和扩展。 "好的代码就像好的诗歌,"他说,"每一行都有其存在的理由,每一个字符都恰到好处。" 这种美学观念体现在他的所有工作中。 在CS231n的课程设计中,他追求概念解释的清晰和优雅。 在特斯拉的神经网络架构中,他寻求简洁和高效的平衡。 在OpenAI的模型优化中,他关注数学的美丽和实用性的统一。 "技术和艺术从来不是对立的,"卡帕西说,"最好的技术往往具有艺术的品质。" 卡帕西的这种哲学深深影响了他的学生和同事。 许多人从他那里学到的不仅仅是技术知识,更是一种思维方式: 如何用美学的眼光看待技术问题。 如何在复杂性中寻找简洁性。 如何在抽象中发现具体的美丽。 "安德烈教会了我,编程可以是一种冥想,"一位前学生说,"当你真正理解一个算法时,你会感受到一种纯粹的快乐。" 但卡帕西的哲学不仅限于技术层面。 他对AI的发展有着深刻的人文思考。 他担心AI可能带来的社会影响,关心技术发展的伦理问题。 "我们不仅要问AI能做什么,"他说,"更要问AI应该做什么。" 在特斯拉工作期间,卡帕西经常思考自动驾驶的道德问题。 如果汽车必须在两个行人之间做出选择,它应该如何决定? 如果系统不确定前方是否有障碍物,它应该如何行动? 这些问题没有标准答案,但它们必须被认真考虑。 "技术不是中性的,"卡帕西说,"每一个算法都体现了设计者的价值观。" 在OpenAI的工作中,卡帕西参与了AI安全和对齐的研究。 他相信,随着AI系统变得越来越强大,确保它们与人类价值观一致变得越来越重要。 "我们正在创造一种新的智能形式,"他说,"我们有责任确保这种智能是善良的。" 卡帕西的人文关怀也体现在他对教育的热情上。 他相信,教育是解决社会不平等的最有效方式。 通过AI技术,可以让高质量的教育变得更加普及和可及。 "知识应该是免费的,"他说,"AI可以帮助我们实现这个理想。" 但卡帕西也意识到,技术本身不能解决所有问题。 它需要与人文精神、社会责任、伦理考量相结合。 "我们需要的不仅仅是更聪明的AI,"他说,"我们需要更智慧的AI。" 这种智慧不仅体现在技术能力上,更体现在对人类需求的理解上。 体现在对社会影响的考虑上。 体现在对未来责任的承担上。 "真正的人工智能不是模仿人类,"卡帕西思考道,"而是增强人类。它应该让我们变得更好,而不是取代我们。" 这种哲学观念指导着卡帕西的所有工作。 从技术研究到产品开发,从教学活动到创业实践。 他始终坚持一个原则:技术应该服务于人类的福祉。 "我们正在塑造未来,"他说,"我们有责任确保这个未来是美好的。" 2024年12月,斯坦福大学。 38岁的安德烈·卡帕西重新站在熟悉的讲台上。 台下坐着新一代的AI研究者,他们的眼中闪烁着与当年的卡帕西同样的好奇光芒。 "十年前,我站在这个讲台上学习深度学习,"卡帕西开始他的演讲,"今天,我想和你们分享我学到的最重要的一课:永远保持学习者的心态。" 演讲结束后,学生们围绕着卡帕西,提出各种问题。 关于技术的,关于职业的,关于人生的。 卡帕西耐心地回答每一个问题,就像他在CS231n课堂上做的那样。 "这就是我想要的生活,"他在日记中写道,"永远学习,永远教学,永远保持对世界的好奇。"
#安德烈·卡帕西
#AI教育
#Vibe Coding
#深度学习
#教育科技
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3周前
当强化学习之父说"LLM是死胡同",当OpenAI创始成员说"RL很糟糕",这不是互相否定,而是同一个深渊的两个入口。Karpathy批判学习信号的稀疏,Sutton批判学习对象的悬浮——两种绝望背后,是符号与具身、表征与经验之间那道古老的鸿沟。
#强化学习
#LLM
#OpenAI
#深度学习
#技术批判
分享
评论 0
0
向阳乔木
1个月前
大白话解释,AI常见术语和缩写,让你读相关文章、Youtube视频更轻松。 简单列18个,基本够用。 Artificial intelligence (AI) | 人工智能 研究如何让机器变得智能的学科,目标是让机器拥有类似人类和动物的智能。 通用人工智能(AGI)指的是能力达到人类水平的AI。 超级人工智能(ASI)则是在各方面都超越人类的AI,不过这两个概念目前还没有公认的严格定义。 AI Agent | AI智能体 能够自己做决策、采取行动的AI系统。 举个例子,一个大语言模型如果能调用各种工具(比如搜索、计算器等),并且知道在什么时候用哪个工具来完成任务,它就是一个AI智能体。 AI Safety | AI安全 专门研究AI可能带来的各种危险,并想办法预防这些风险的领域。 这些风险可大可小,从小麻烦到威胁人类生存都有可能。 Context window | 上下文窗口 大语言模型一次能"记住"多少内容。 窗口越大,模型能同时处理的信息就越多。 Diffusion | 扩散模型 一种生成新内容的算法。 它的工作原理有点像"去模糊"——先把一张清晰的图加上噪点变模糊,然后训练模型学会反向操作,从模糊恢复到清晰。 学会之后,就能从随机噪点生成全新的高质量图像。 目前在AI绘画和蛋白质结构设计方面很火。 Environment | 环境 AI智能体"生活"的世界。 智能体在环境里做出各种动作,环境会告诉它发生了什么变化,还会给它打分(做得好给奖励,做得不好给惩罚)。 智能体的完整经历记录(包括看到了什么、做了什么、得了多少分、接下来看到了什么)叫做轨迹,这些数据用来训练强化学习模型。 Function calling / tool use | 函数调用/工具使用 让AI模型能够像人一样使用各种工具的能力。 比如需要计算时调用计算器,需要查资料时调用搜索引擎,需要处理数据时运行代码等。 Generative AI | 生成式AI 能够创作新内容的AI,比如写文章、画图、作曲、做3D模型等。 你给它一个描述(提示词),它就能生成相应的内容。 Graphics Processing Unit (GPU) | 图形处理单元 训练和运行AI模型的核心硬件。 GPU最大的特点是能同时做很多计算,所以特别适合AI这种需要大量并行计算的任务。 (Large) Language model (LM, LLM) | (大型)语言模型 用海量文本训练出来的AI模型,核心能力是预测"下一个词是什么"。 通过这种方式,它学会了理解和生成人类语言。 Mixture-of-Experts (MoE) | 混合专家模型 一种聪明的模型设计。 模型里有很多"专家"模块,但处理每个词的时候只叫醒几个相关的专家来干活,其他专家休息。 这样既保持了模型的能力,又节省了计算资源。 Prompt | 提示词 你跟AI说的话,用来告诉它你想要什么。 比如"帮我写一首关于春天的诗"就是一个提示词。 Reasoning model | 推理模型 会"思考"的AI模型。 它不是直接给答案,而是像人一样一步步分析问题、制定计划、验证结果。 它的思考过程(叫做思维链)是可见的,你能看到它是怎么一步步得出答案的。 Reinforcement learning (RL) | 强化学习 让AI通过"试错"来学习的方法。 就像训练小狗一样——做对了给奖励,做错了给惩罚,AI在不断尝试中逐渐学会完成任务的最佳方法。 Test-time compute (or inference-time compute) | 测试时计算 让AI在回答问题时多花点时间思考,比如多想几种方案、多验证几遍答案等,这样能提高准确率。 这个过程不需要重新训练模型。 Transformer 目前最主流的AI模型架构。 它的核心是"注意力机制",能自动识别出输入信息中哪些部分最重要。 最初用于翻译,现在已经应用到图像、语音等各个领域,是现代AI的基石。 Vision-Language-Action Model (VLAM) | 视觉-语言-动作模型 既能看懂图像、理解语言,又能在现实世界中执行动作的AI模型。 比如机器人既能看懂你指的是哪个杯子,听懂你说"把它拿过来",还能真的把杯子拿过来。 如果只有看和听的能力,没有动作能力,就叫VLM(视觉-语言模型)。 World model | 世界模型 能够预测"如果我这样做,会发生什么"的AI模型。 它理解世界的运行规律,所以能预测自己的行动会带来什么后果,从而实现实时的智能控制。
#AI术语
#人工智能
#机器学习
#深度学习
#AI安全
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
最近的研究表明,通过有针对性的训练,递归可以更稳健地出现,但基线模型在相似深度周围遇到了障碍,支持饱和假设的观点。 Recent work shows recursion can emerge more robustly with targeted training, but baseline models hit walls around similar depths, supporting your saturation hypothesis -arxiv.org/pdf/2507.10524v1
#递归
#模型训练
#饱和假设
#深度学习
#基线模型
分享
评论 0
0
Y11
1个月前
我见过不少人,开口闭口都是"AI Agent“,"深度学习","元宇宙",”区块链“,却连最基本的原理都说不清楚。 这种"纸上谈兵"的状态,恰恰说明他们并未真正理解。 就像费曼说的:"如果不能用简单的话给孩子讲明白,就说明你自己也没搞懂。" 他的物理课之所以经典,正是因为把复杂公式拆解成了生活里的道理,用三页纸讲透数学本质,从数字到计算,再到微积分,每一步都有逻辑支撑,没有生硬的定义,只有自然的推导。 比起背诵概念,吃透基础知识更重要。 死记硬背的东西就像散落的拼图,拼不出完整的画面;而理解了基础,就像找到了拼图的框架,所有相关概念会自然归位。 比如学经济学,不懂供需关系,就无法理解市场波动;不懂边际效应,经济学里的很多理论就成了无源之水。 现在总有人追逐最新概念,觉得这样才够"前沿"。但最新的东西往往未经充分验证,就像刚出炉的面包,温度高却可能夹生。真正的行家,不会被花哨的术语迷惑,而是能透过现象看本质——就像老木匠看木料,一眼就能看出哪里是核心,哪里是支撑。 清晰的思路,本质是对知识体系的掌控力。当你把基础知识揉碎了、吃透了,就能像搭积木一样,把不同领域的概念组合起来,解决复杂问题。这种能力,才是真正的"聪明",也是最经得起时间检验的"权威"。
#AI Agent
#深度学习
#元宇宙
#区块链
#费曼
#物理课
#经济学
#供需关系
分享
评论 0
0
Barret李靖
1个月前
最近在 B 站又跟着李沐读了不少 AI 论文,再次推荐他的《AI 论文精读》系列, 论文的结构大多八股:摘要、引言、方法、实验、结论,一板一眼。但要把这样的内容讲得清晰易懂、让人愿意听下去,其实特别难。这考验的不是文笔,而是对问题本质的洞察力。 ResNet 是图像领域的奠基之作。李沐在讲这篇论文时,对它的写作风格评价很高——全文围绕一个核心思想:Residual Learning。简单一句话:别让网络从零学起,让它只学“差的那一点”。就是这个看似朴素的想法,改变了整个深度学习的训练方式。 他读论文的风格也值得学习,不啃细节,而是“扫一眼、圈重点、问问题”三步阅读,关注的不是论文细节本身,而是作者在面对问题时的思考路径。这种方式能让人更快地看透论文背后的逻辑,而不是被推导公式困住。 对作者来说,把简单的东西讲简单,把复杂的东西讲简单,都需要很深的功底。而对读者,要能抓住那个最核心的问题:“这篇论文到底想解决什么?”,当懂得用这种方式去读论文时,其实也在学习如何思考、如何写作、如何提炼本质。
#李沐
#AI论文精读
#ResNet
#深度学习
#思考方式
分享
评论 0
0
Mr Panda
1个月前
有没有那种深度学习算法的专业性强的高质量社群, 我想加入一个。 我通过自己做社群, 真切感受到了, 学习一个领域最快的方法就是: 学习这个领域的基本概念 跟这个领域的高手沟通交流。
#深度学习
#社群
#学习交流
#领域高手
#经验分享
分享
评论 0
0
Xiaowen
1个月前
我 get 不到一个 sora2 就认为是 chatgpt 时刻的逻辑。 即使真的改变了视觉行业,也完全和 agi 无关,完全是深度学习达到一个阈值以后涌现的应用层能力而已。 应用层就算上天,也是挣钱效应…… 希望谁来继续帮忙解惑。
#Sora2
#ChatGPT
#深度学习
#应用层
#视觉行业
分享
评论 0
0
向阳乔木
1个月前
最近听好几个AI播客,都提到这篇2019年由里奇·萨顿写的一篇文章“The Bitter Lesson(苦涩的教训)” 。 都觉得这篇文章非常经典,影响了后续的AI训练模型。 用Opus4.1 做个双语对照版,然后人工微调。 从70年的人工智能研究中能够读出的最大教训是,利用计算力的通用方法最终是最有效的,而且优势巨大。 The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin. 其根本原因是摩尔定律,或者更准确地说,是计算单位成本持续呈指数级下降这一普遍规律。 The ultimate reason for this is Moore's law, or rather its generalization of continued exponentially falling cost per unit of computation. 大多数人工智能研究都是在假设智能体可用的计算力是恒定的前提下进行的(在这种情况下,利用人类知识是提升性能的唯一途径之一)。 但是,在比典型研究项目稍长的时间内,必然会有大量更多的计算力变得可用。 Most AI research has been conducted as if the computation available to the agent were constant (in which case leveraging human knowledge would be one of the only ways to improve performance) but, over a slightly longer time than a typical research project, massively more computation inevitably becomes available. 为寻求在短期内产生差异的改进,研究人员试图利用他们对领域的人类知识,但从长远来看,唯一重要的是对计算力的利用。 Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation. 这两者并不一定相互矛盾,但在实践中它们往往如此。 These two need not run counter to each other, but in practice they tend to. 花在一个方面的时间就是没有花在另一个方面的时间。 Time spent on one is time not spent on the other. 对某一种方法的投入会产生心理上的承诺。 There are psychological commitments to investment in one approach or the other. 而且基于人类知识的方法往往会使方法变得复杂,使其不太适合利用计算力的通用方法。 And the human-knowledge approach tends to complicate methods in ways that make them less suited to taking advantage of general methods leveraging computation. 有许多人工智能研究人员迟来地学到这个苦涩教训的例子,回顾其中一些最突出的例子是很有启发性的。 There were many examples of AI researchers' belated learning of this bitter lesson, and it is instructive to review some of the most prominent. 在计算机国际象棋中,1997年击败世界冠军卡斯帕罗夫的方法是基于大规模的深度搜索。 In computer chess, the methods that defeated the world champion, Kasparov, in 1997, were based on massive, deep search. 当时,大多数计算机国际象棋研究人员对此感到沮丧,他们一直在追求利用人类对国际象棋特殊结构理解的方法。 At the time, this was looked upon with dismay by the majority of computer-chess researchers who had pursued methods that leveraged human understanding of the special structure of chess. 当一个更简单的、基于搜索的方法配合专门的硬件和软件被证明更加有效时,这些基于人类知识的国际象棋研究人员并不是优雅的失败者。 When a simpler, search-based approach with special hardware and software proved vastly more effective, these human-knowledge-based chess researchers were not good losers. 他们说"暴力"搜索这次可能赢了,但这不是一个通用策略,而且这也不是人类下棋的方式。 They said that "brute force" search may have won this time, but it was not a general strategy, and anyway it was not how people played chess. 这些研究人员希望基于人类输入的方法能够获胜,当它们没有获胜时,他们感到失望。 These researchers wanted methods based on human input to win and were disappointed when they did not. 在计算机围棋中也出现了类似的研究进展模式,只是延迟了20年。 A similar pattern of research progress was seen in computer Go, only delayed by a further 20 years. 最初的巨大努力都投入到通过利用人类知识或游戏的特殊特征来避免搜索。 但一旦搜索在规模上得到有效应用,所有这些努力都被证明是无关紧要的,甚至更糟。 Enormous initial efforts went into avoiding search by taking advantage of human knowledge, or of the special features of the game, but all those efforts proved irrelevant, or worse, once search was applied effectively at scale. 同样重要的是使用自我对弈学习来学习价值函数(在许多其他游戏甚至国际象棋中也是如此,尽管学习在1997年首次击败世界冠军的程序中并没有发挥重要作用)。 Also important was the use of learning by self play to learn a value function (as it was in many other games and even in chess, although learning did not play a big role in the 1997 program that first beat a world champion). 自我对弈学习,以及一般的学习,就像搜索一样,它使得大规模计算力得以发挥作用。 Learning by self play, and learning in general, is like search in that it enables massive computation to be brought to bear. 搜索和学习是人工智能研究中利用大量计算力的两类最重要的技术。 Search and learning are the two most important classes of techniques for utilizing massive amounts of computation in AI research. 在计算机围棋中,就像在计算机国际象棋中一样,研究人员最初的努力是利用人类的理解(这样就需要更少的搜索),只有在很久以后,通过拥抱搜索和学习才取得了更大的成功。 In computer Go, as in computer chess, researchers' initial effort was directed towards utilizing human understanding (so that less search was needed) and only much later was much greater success had by embracing search and learning. 在语音识别中,20世纪70年代有一场由DARPA赞助的早期竞赛。 In speech recognition, there was an early competition, sponsored by DARPA, in the 1970s. 参赛者包括许多利用人类知识的特殊方法——关于单词、音素、人类声道等的知识。 Entrants included a host of special methods that took advantage of human knowledge---knowledge of words, of phonemes, of the human vocal tract, etc. 另一方面是更具统计性质的新方法,它们基于隐马尔可夫模型(HMMs)进行更多的计算。 On the other side were newer methods that were more statistical in nature and did much more computation, based on hidden Markov models (HMMs). 再一次,统计方法战胜了基于人类知识的方法。 Again, the statistical methods won out over the human-knowledge-based methods. 这导致了整个自然语言处理领域的重大变化,在几十年的时间里逐渐地,统计和计算开始主导这个领域。 This led to a major change in all of natural language processing, gradually over decades, where statistics and computation came to dominate the field. 深度学习在语音识别中的最近兴起是这个一致方向上的最新一步。 The recent rise of deep learning in speech recognition is the most recent step in this consistent direction. 深度学习方法更少依赖人类知识,使用更多的计算,结合在庞大训练集上的学习,产生了显著更好的语音识别系统。 Deep learning methods rely even less on human knowledge, and use even more computation, together with learning on huge training sets, to produce dramatically better speech recognition systems. 就像在游戏中一样,研究人员总是试图制造按照他们认为自己思维方式工作的系统——他们试图将那些知识放入他们的系统中——但这最终被证明是适得其反的。 当通过摩尔定律,大规模计算变得可用并找到了充分利用它的方法时,这是研究人员时间的巨大浪费。 As in the games, researchers always tried to make systems that worked the way the researchers thought their own minds worked---they tried to put that knowledge in their systems---but it proved ultimately counterproductive, and a colossal waste of researcher's time, when, through Moore's law, massive computation became available and a means was found to put it to good use. 在计算机视觉中,也有类似的模式。 In computer vision, there has been a similar pattern. 早期方法将视觉理解为搜索边缘、广义圆柱体,或者用SIFT特征来理解。 Early methods conceived of vision as searching for edges, or generalized cylinders, or in terms of SIFT features. 但今天所有这些都被抛弃了。 But today all this is discarded. 现代深度学习神经网络只使用卷积和某些不变性的概念,表现要好得多。 Modern deep-learning neural networks use only the notions of convolution and certain kinds of invariances, and perform much better. 这是一个重要的教训。 This is a big lesson. 作为一个领域,我们仍然没有彻底学会它,因为我们还在继续犯同样的错误。 As a field, we still have not thoroughly learned it, as we are continuing to make the same kind of mistakes. 要看到这一点,并有效地抵制它,我们必须理解这些错误的吸引力。 To see this, and to effectively resist it, we have to understand the appeal of these mistakes. 我们必须学会这个苦涩的教训:将我们认为自己如何思考的方式内置进去,从长远来看是行不通的。 We have to learn the bitter lesson that building in how we think we think does not work in the long run. 苦涩的教训基于历史观察: 1)人工智能研究人员经常试图将知识构建到他们的智能体中。 2)这在短期内总是有帮助的,并且对研究人员个人来说是令人满意的。 3)从长远来看,它会达到瓶颈,甚至阻碍进一步的进展, 4)突破性进展最终通过基于搜索和学习扩展计算的相反方法到来。 The bitter lesson is based on the historical observations that 1) AI researchers have often tried to build knowledge into their agents, 2) this always helps in the short term, and is personally satisfying to the researcher, but 3) in the long run it plateaus and even inhibits further progress, and 4) breakthrough progress eventually arrives by an opposing approach based on scaling computation by search and learning. 最终的成功带有苦涩,而且往往没有完全消化,因为这是对受青睐的、以人为中心的方法的胜利。 The eventual success is tinged with bitterness, and often incompletely digested, because it is success over a favored, human-centric approach. 从苦涩的教训中应该学到的一件事是通用方法的巨大力量,这些方法即使在可用计算变得非常庞大时,仍能随着计算的增加而继续扩展。 One thing that should be learned from the bitter lesson is the great power of general purpose methods, of methods that continue to scale with increased computation even as the available computation becomes very great. 似乎能以这种方式任意扩展的两种方法是搜索和学习。 The two methods that seem to scale arbitrarily in this way are search and learning. 从苦涩的教训中要学到的第二个要点是,思维的实际内容是极其、无可救药地复杂的; 我们应该停止试图找到思考思维内容的简单方法,比如思考空间、对象、多个智能体或对称性的简单方法。 The second general point to be learned from the bitter lesson is that the actual contents of minds are tremendously, irredeemably complex; we should stop trying to find simple ways to think about the contents of minds, such as simple ways to think about space, objects, multiple agents, or symmetries. 所有这些都是任意的、内在复杂的外部世界的一部分。 All these are part of the arbitrary, intrinsically-complex, outside world. 它们不应该被内置,因为它们的复杂性是无穷无尽的; 相反,我们应该只内置能够发现和捕获这种任意复杂性的元方法。 They are not what should be built in, as their complexity is endless; instead we should build in only the meta-methods that can find and capture this arbitrary complexity. 这些方法的关键是它们能够找到好的近似,但对它们的搜索应该由我们的方法来完成,而不是由我们来完成。 Essential to these methods is that they can find good approximations, but the search for them should be by our methods, not by us. 我们想要的是能够像我们一样发现的人工智能智能体,而不是包含我们已经发现的东西的智能体。 We want AI agents that can discover like we can, not which contain what we have discovered. 内置我们的发现只会让我们更难看清发现过程是如何完成的。 Building in our discoveries only makes it harder to see how the discovering process can be done. ---- AI总结提炼 1. 主要教训:过去70年的AI研究表明,利用大规模计算力的通用方法(搜索和学习)远比嵌入人类知识的方法更有效。 2. 根本原因:摩尔定律使计算成本持续下降,计算力呈指数级增长。 3. 历史案例:无论是国际象棋、围棋、语音识别还是计算机视觉,最初基于人类专家知识的方法都输给了后来基于大规模计算的简单方法。 4. 研究者的误区:研究人员总想把自己的思维方式编程到AI中,这在短期有效且令人满意,但长期会成为瓶颈。 5. "苦涩"的原因:这个教训之所以"苦涩",是因为研究者不愿接受自己精心设计的、体现人类智慧的方法输给了"暴力"计算。 6. 正确方向:应该构建能够自主发现和学习的AI系统,而不是把人类已有的知识硬编码进去。 7. 核心启示:不要试图告诉AI如何思考,而要给它提供学习和搜索的能力,让它自己去发现规律。
#AI
#苦涩的教训
#计算力
#通用方法
#深度学习
分享
评论 0
0
Colin Wu
1个月前
AI 深度学习的第一波是下棋,第二波是机器视觉(人脸识别),第三波是 ChatGPT 为代表的大语言模型,在内容、编程、教育、医疗、心理、法律、财务、服务、学术等正在引发巨大颠覆,是前两波绝对无法比拟的,比如给每个孩子配备一个 AI 老师,每个人配备一个 AI 医生,教育水平和寿命都会大幅提升。
#AI
#深度学习
#ChatGPT
#大语言模型
#教育
分享
评论 0
0
Tw93
1个月前
买了3本干货非常足的深度投资学习的书籍。
#投资学习
#干货书籍
#深度学习
分享
评论 0
0
阿兹台克小羊驼🦙
2个月前
Geoffrey Hinton:Ilya提出了想法,Alex实现了它,而我得了诺奖... (他的原话。一句话让我敬他一辈子)
#AI浪潮:重塑就业,风险暗涌?· 122 条信息
#Geoffrey Hinton
#Ilya Sutskever
#Alex Krizhevsky
#深度学习
#诺贝尔奖
分享
评论 0
0
阿橡
2个月前
OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首 原因,简单来说就是:标准的训练和评估程序更倾向于对猜测进行奖励,而不是在模型勇于承认不确定时给予奖励。
#OpenAI
#AI幻觉
#深度学习
#不确定性
#奖励机制
分享
评论 0
0
Y11
2个月前
分享《深度学习面试宝典》, 八股文,适合最近要找算法工作的朋友们。
#深度学习
#面试
#算法
#八股文
#求职
分享
评论 0
0
Neo Reid
2个月前
你在X上关注了哪些值得深度学习的账号? 推友们给我推荐些呗,各个领域的都行。 每个人的阶段不一样,我是刚出道的小白,我准备找时间把: don哥 小年 ban总 锤哥 这几个人刷一遍。
#X平台
#深度学习
#don哥
#小年
#ban总
分享
评论 0
0
李继刚
4个月前
我们用了那么大的精力,终于让机器学会: "Attention is all you need." 与此同时,人类却正在失去注意力。
#机器学习
#深度学习
#注意力
#人类行为
#科技发展
分享
评论 0
0
小互
4个月前
MiniMax 发布混合注意力推理开源模型 MiniMax-M1 训练成本仅为 53.5 万美元 性能超越Qwen3、DeepSeek-R1 逼近顶级闭源模型 MiniMax-M1引入了一种全新Lightning Attention 上下文优化注意力机制 相比 DeepSeek R1 等模型,在处理 10 万 tokens 的生成任务时,MiniMax-M1 的计算量仅为其 25%。 该模型基于前代模型 MiniMax-Text-01 开发,总参数规模为 4560亿,每个token激活参数为 45.9亿,支持最长 100万tokens 的上下文输入(约为 DeepSeek R1 的8倍)。 提出了一种新型强化学习算法 CISPO(Clipped Importance Sampling with Policy Optimization),该算法: 不裁剪 token 梯度,而是裁剪采样权重(importance weights)。 减少训练不稳定性,提升收敛质量。 缩短训练时长(Qwen2.5对比实验显示,训练速度提升2倍)
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 23 条信息
#MiniMax-M1
#开源模型
#Lightning Attention
#深度学习
#Qwen3
#DeepSeek-R1
#AI性能
#模型对比
#注意力机制
#上下文优化
分享
评论 0
0
Olivert
5个月前
2025年的智能体真是万千宠爱!大佬推崇,前景广阔,入门简单,编程领域正在发生一场革命。智能体封装一下,就能做成SaaS网站。不仅是创业利器,也是大龄程序员的必备技能。DeepSeek创始人的校友,浙大系创业者,技术大佬彭靖田教你搞定智能体。小可接单,大能创业。扫码免费领取资料。记得去上课哦~
#智能体
#编程革命
#SaaS创业
#程序员技能
#深度学习
#浙江大学
#创业
分享
评论 0
0
Y11
5个月前
最近实践出来一个 prompt 提问技巧: “你认为这个领域谁最厉害?不要公认、而要你的真心认同的” 得到几个名字后,下一个问题就是: “如果你是 XXX 你会如何回答我的这个问题?”
#Prompt技巧
#提问技巧
#人工智能
#NLP
#深度学习
分享
评论 0
0
蓝点网
5个月前
#OpenAI 推出新旗舰推理模型 o3-pro,利用更多计算资源进行深入思考提供更准确的回答。 模型在数学、科学、编程方面表现优异,在清晰度、全面性、指令遵循性和准确性方面的评分也更高,缺点是响应时间更长。即日起 ChatGPT Pro 和 Team 及 API 开发者可使用该模型:
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 652 条信息
#OpenAI
#新旗舰模型
#O3-Pro
#人工智能
#深度学习
#计算资源
#ChatGPT Pro
#API开发
#技术创新
分享
评论 0
0
F.Mackenzie 约克.小汽车. 嘟嘟
5个月前
压缩:我用 notebooklm 把这本1000页的deep maths 书压缩成了30+分钟的podcast… 扩张:反复听,反复听,反复听… I ❤️ AI……
#AI
#深度学习
#播客
#数学
#NotebookLM
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞