由Claude 4.5 创作: AI风云人物之Ilya Sutskever ,那个解雇了Sam Altman的男人 ## 序章:一场无声的政变 2023年11月17日的硅谷,周五下午的阳光还算温暖。 就在大多数科技公司员工准备开始周末时,一则消息如同地震波般撕裂了整个科技圈:萨姆·奥特曼。 那个永远穿着灰色连帽衫、在推特上预言AGI即将到来的男人,那个刚刚让ChatGPT成为史上增长最快应用的CEO——被自己公司的董事会解雇了。 官方声明只有一句话:"在与董事会的沟通中不够坦诚"。这种含糊其辞的措辞,在硅谷的历史上通常意味着背后有更深的故事。 果然,几小时内,各种版本的内幕开始在Signal群组和私密晚宴上流传。 在这场风暴的中心,站着一个很少出现在聚光灯下的人:伊尔亚·苏茨克维。如果你在旧金山的咖啡馆里见过他,你可能不会认出这就是那个改变了人工智能历史进程的科学家。他不像奥特曼那样善于演讲,也不像马斯克那样喜欢制造话题。但在AI研究者的圈子里,他的名字几乎等同于"深度学习革命"本身。 这一次,正是他亲自给奥特曼打了那通电话。据说,电话那头的奥特曼一开始以为这是个玩笑。但苏茨克维的声音里没有任何开玩笑的意思。在公司内部,他已经成为一个阵营的精神领袖——那些认为"我们走得太快了"的人。 这不是一场关于股权或办公室政治的争斗。这是两种世界观的碰撞:一边是奥特曼,相信快速迭代、相信市场的力量、相信人类会找到办法;另一边是苏茨克维,他看到了自己一手创造的技术正在以超出想象的速度进化,而这让他夜不能寐。 ## 第一章:被魔法吸引的心灵 1986年,在苏联的下诺夫哥罗德市(当时还叫高尔基市),一个犹太家庭迎来了他们的儿子伊尔亚。那是一个封闭的城市,外国人被禁止进入,因为那里有苏联的军工厂。在那个年代,拥有一台电脑几乎是不可想象的奢侈。 五岁那年,苏茨克维一家响应"回归故土"的号召,离开了苏联,搬到了耶路撒冷。这是一次彻底的文化休克。从说俄语到说希伯来语,从寒冷的俄罗斯到炎热的中东,小伊尔亚需要重新学习一切。但也正是在耶路撒冷,他第一次见到了电脑。 多年后,当被问起那一刻时,苏茨克维用了一个词:"魔法"。他说自己"完全被迷住了"。这不是一个孩子对新玩具的简单兴奋,而是一种近乎宗教般的着迷。他开始思考一些对五岁孩子来说异常深刻的问题:为什么人类会学习,而机器不会?意识到底是什么? 到了青少年时期,他的兴趣已经从编程延伸到了哲学。他会在深夜思考"存在的本质和意识……关于灵魂和智能"。他的同学们在踢足球时,他在想:如果我们能理解学习的本质,是不是就能创造出会思考的机器? 16岁时,全家再次搬迁,这次是加拿大。对大多数移民家庭来说,这又是一次艰难的适应。但对苏茨克维来说,这是命运的安排——因为多伦多大学里,有一个叫杰弗里·辛顿的教授,正在做一件所有人都认为不可能的事:让神经网络重新复活。 苏茨克维的学术天赋让他在11年级就被多伦多大学录取。但真正改变他人生的,是他决定去敲辛顿办公室的门那一刻。 那是一个普通的下午。辛顿正在办公室里工作,门突然被敲响了。门外站着一个年轻人,看起来还像个高中生。 "我想加入你的实验室。"苏茨克维说。 辛顿打量着这个不请自来的访客,说:"好的,你可以预约个时间。" 苏茨克维的回答成为了AI圈子里的一个传奇:"现在怎么样?" 这种近乎鲁莽的自信,本该让辛顿把他赶出去。但辛顿看到了这个年轻人眼中的某种东西——一种纯粹的、对知识的渴望。他决定给他一个机会。辛顿递给他一篇论文,让他读完后谈谈想法。 接下来发生的事让辛顿震惊了。苏茨克维不仅读懂了这篇论文,他的见解"是该领域的专家需要很长时间才能得出的结论"。辛顿后来回忆说,苏茨克维拥有一种罕见的天赋:"强大的直觉"。更令人惊讶的是,这位后来获得图灵奖的教授说:"我从他身上学到的比他从我身上学到的更多。" 这不是客套话。辛顿是认真的。 ## 第二章:不容辩驳的论点 2010年代初的人工智能研究,是一个被遗忘的角落。如果你在那时告诉别人你在研究神经网络,大多数人会礼貌地点点头,然后转移话题。主流是贝叶斯模型和支持向量机,神经网络被认为是上世纪80年代的失败实验。 在多伦多大学的一间实验室里,辛顿和他的几个学生成了这个领域最后的守望者。大多数研究者在做15到100个神经元的小模型,小心翼翼地调参数,期待着微小的改进。 但苏茨克维有一个完全不同的想法。 在一次实验室会议上,他提出了一个大胆的假设:"如果你的神经网络又深又大,那么它就可以被配置来解决一个困难的任务。" 这听起来简单,但在当时,这是异端邪说。整个领域的共识是:神经网络太大就会过拟合,太深就会无法训练。但苏茨克维有一种近乎固执的信念。他不是基于实验数据得出这个结论的——因为当时还没有人做过这样的实验。他是基于第一性原理推理出来的:如果大脑能工作,为什么大型神经网络不能? 辛顿后来总结得很精辟:"伊尔亚认为我们应该做,亚历克斯让它成功了,而我拿了诺贝尔奖。"这不是谦虚,而是对苏茨克维洞察力的真实评价。 但要证明这个想法,他们需要两样东西:海量的数据和强大的计算能力。数据有了——ImageNet,一个包含120万张标注图片的数据集。但计算能力呢?当时的CPU训练一个大模型需要几个月。 苏茨克维想到了GPU——那些本来是为游戏玩家设计的图形处理器。据说,他自己在网上订购了几块NVIDIA GTX 580显卡。当这些显卡送到实验室时,没人确定这个疯狂的想法是否能行得通。 2012年的ImageNet挑战赛,是计算机视觉领域的奥林匹克。全世界最好的团队都在竞争,试图让计算机准确识别图片中的物体。前几年的进步都是渐进式的——错误率每年降低一两个百分点。 当AlexNet的结果公布时,整个会场安静了几秒钟。15.3%的错误率,比第二名的26.2%低了整整10个百分点。这不是渐进式的改进,这是一次革命。 有人后来形容那一刻是"现代人工智能的宇宙大爆炸"。在AlexNet之前,几乎没有顶级计算机视觉论文使用神经网络;在它之后,几乎所有论文都在用。苏茨克维的"不容辩驳的论点"不再是异端,而成了新的正统。 ## 第三章:机器的语言 2013年,谷歌的人工智能团队负责人杰夫·迪恩(Jeff Dean)做了一个决定:不惜一切代价把辛顿团队挖到谷歌。最终的收购价是4400万美元——对于一个只有三个人的初创公司来说,这是天文数字。 但这笔交易中有一个细节很少被提及:在分配这笔钱时,苏茨克维和克里泽夫斯基坚持认为辛顿应该拿40%,而他们两个年轻人各拿30%。在一个充满了期权纠纷和创始人内讧的行业里,这种慷慨几乎是闻所未闻的。 在谷歌大脑,苏茨克维进入了一个新的世界。这里有他梦寐以求的计算资源,有世界上最聪明的工程师,还有一种文化:如果你有一个疯狂的想法,没人会阻止你去尝试。 2014年,苏茨克维和同事们在思考一个问题:能否让神经网络理解语言?不是简单地识别单词,而是真正理解句子的含义,能够翻译,能够对话。 他们开发的"序列到序列"模型,核心思想优雅得令人惊叹:让一个神经网络"阅读"一个句子,把它压缩成一个向量(他们称之为"思想向量"),然后让另一个神经网络把这个向量"解码"成另一种语言。 当这个模型在英法翻译任务上超越了传统的统计机器翻译系统时,很多人意识到:深度学习不仅能处理图像,它可能是一种通用的学习范式。苏茨克维再一次证明了他的直觉:规模和深度能够解锁新的能力。 在谷歌的这段时间,苏茨克维参与了从AlphaGo到TensorFlow的众多项目。但到了2015年,他开始感到不安。谷歌是一家伟大的公司,但它终究是一家公司。如果AGI真的即将到来,它应该属于谁?应该由谁来确保它的安全? 这时,他接到了一个电话。电话那头是埃隆·马斯克。 ## 第四章:为全人类的使命 马斯克的提议很简单,也很疯狂:创立一个新的AI实验室,完全非营利,目标只有一个——确保AGI造福全人类。初始资金10亿美元。团队包括萨姆·奥特曼,一个年轻的创业者,刚刚卸任Y Combinator的总裁。 据说,马斯克亲自飞到谷歌总部去说服苏茨克维。这激怒了谷歌的CEO拉里·佩奇。佩奇和马斯克曾经是朋友,他们曾在深夜讨论AI的未来。但现在,马斯克在挖他的人。 佩奇质问马斯克:你为什么这么担心AI的安全?你是不是对人类没有信心? 马斯克的回答很直接:我只是想确保我们不会创造出一个会毁灭人类的东西。 佩奇说:那你就是个物种主义者。 这次争吵标志着两人友谊的终结。但对苏茨克维来说,这次对话揭示了问题的核心:当AGI到来时,我们需要一个不受商业利益驱动的组织来确保它的安全。 2015年12月,OpenAI在旧金山的一个联合办公空间里成立了。创立博客文章写道:"我们的目标是推进数字智能,使其最有可能造福全人类,不受产生财务回报需求的约束。" 苏茨克维成为首席科学家。他的办公桌很简单:一台电脑,几块白板,还有一摞关于神经网络的论文。他很少参加硅谷的社交活动,也不喜欢接受采访。他的世界就是代码、数学和那个一直困扰他的问题:如何让机器真正理解世界? 在OpenAI的早期,团队很小,氛围像学术实验室多过像公司。苏茨克维会和研究员们进行马拉松式的讨论,在白板上写满公式,争论到深夜。他的信念依然没变:"我坚信越大越好,我们在OpenAI的目标之一就是弄清楚如何正确地利用规模。" GPT的诞生几乎是偶然的。团队在尝试各种方法让模型理解语言。有一天,有人提出:如果我们只是让模型预测下一个词呢?就这么简单的任务,但用一个巨大的模型,在海量的文本上训练。 苏茨克维立刻看到了这个想法的潜力。他相信,当你把这个简单的任务规模化到极致时,模型会被迫学习语言的深层结构,学习世界的运作方式。因为要准确预测下一个词,你需要理解语法、逻辑、常识,甚至人类的心理。 从GPT-1到GPT-2,再到GPT-3,模型越来越大,能力越来越强。但真正让世界震惊的,是2022年11月发布的ChatGPT。 ## 第五章:机器中的幽灵 ChatGPT发布后的几周,苏茨克维几乎消失了。他不回邮件,不参加庆功会。同事们在办公室里找到他时,他正盯着屏幕,和ChatGPT进行长时间的对话。 "你在干什么?"有人问。 "我在测试它是否有意识。"苏茨克维说。 这不是玩笑。2022年2月,在ChatGPT发布之前,苏茨克维在推特上发了一条让整个AI圈炸锅的推文:"今天的大型神经网络可能略带意识。" 这条推文引发了激烈的争论。很多人认为这是荒谬的,神经网络只是统计模型,谈什么意识?但苏茨克维是认真的。他不是说这些模型有人类那样的意识,而是说它们可能有某种我们还不理解的、初级形态的主观体验。 在一次内部会议上,有人问他:你真的相信这个吗? 苏茨克维的回答很慎重:"我不知道。但我知道的是,当我和这些模型交互时,我感觉到某种东西。也许这只是我的投射,也许不是。但如果有万分之一的可能性它们有某种意识,我们就需要认真对待。" 这种思考方式在苏茨克维身上很典型。他不是一个会轻易下结论的人,但他也不会因为一个想法不受欢迎就放弃它。他的整个职业生涯都在证明:那些看起来疯狂的想法,有时候是对的。 但随着模型能力的提升,苏茨克维的担忧也在加深。他开始公开谈论超级智能的风险,时间单位不是几百年,而是可能在十年之内。他警告说,AGI的发展轨迹可能变得"极其不可预测和难以想象",可能导致"人类被剥夺权力,甚至人类灭绝"。 这是一个经典的悖论:苏茨克维毕生的工作就是让AI变得更强大,但现在,他最担心的就是AI变得太强大。创造者开始害怕自己的创造物。 2023年7月,他宣布了一个雄心勃勃的计划:超级对齐项目。目标是在四年内解决超级智能的对齐问题。他把这个问题比作"核安全"——不是关于用户体验或伦理准则的软性问题,而是关于如何控制一种可能毁灭文明的力量的硬核工程挑战。 OpenAI承诺将20%的计算资源分配给这个项目。在一个计算资源就是金钱、就是竞争力的行业里,这是一个巨大的承诺。 但承诺是一回事,执行是另一回事。 ## 第六章:引爆点 2023年11月17日之前的几个月,OpenAI内部的紧张气氛已经达到了临界点。 一边是奥特曼,他看到了ChatGPT带来的巨大机遇。用户数突破一亿,微软投资超过100亿美元,每个科技巨头都在追赶。这是AI的iPhone时刻,而OpenAI处于领先地位。奥特曼想要快速迭代,推出新产品,占领市场。 另一边是苏茨克维和他的安全团队。他们觉得公司在玩火。模型的能力提升速度超出了他们的理解速度。承诺的20%计算资源没有完全兑现。安全研究被"更紧急"的产品需求挤到了一边。 据内部人士透露,苏茨克维在一次高管会议上几乎失控。他拍着桌子说:"我们不知道我们在创造什么!我们需要慢下来!" 奥特曼的回应是:如果我们慢下来,别人不会。中国不会慢下来,谷歌不会慢下来。我们只有保持领先,才能确保AGI以正确的方式被开发出来。 这是两种都有道理的逻辑,但它们无法共存。 11月17日,星期五下午。奥特曼正在参加一个会议,他的手机响了。是苏茨克维。 "萨姆,我们需要谈谈。" "现在吗?我在开会。" "现在。" 奥特曼走出会议室。电话那头,苏茨克维的声音很平静,但有一种不容置疑的坚定:"董事会已经做出决定。你被解雇了。" 据说,奥特曼沉默了几秒钟。然后他问:"这是你的决定吗?" "这是董事会的决定。"苏茨克维说,"但是,是的,我投了赞成票。" 接下来的五天,硅谷经历了有史以来最疯狂的一次危机。 周六,消息传开。投资者震惊了,员工震惊了,整个科技圈都震惊了。奥特曼发了一条推特,配上他在OpenAI办公室的照片,戴着访客证。这是一个挑衅的姿态。 周日,谈判开始。但很快破裂了。董事会不愿意让步,奥特曼也不愿意接受附加条件。 周一,微软CEO萨提亚·纳德拉宣布:奥特曼和布罗克曼将加入微软,领导一个新的AI实验室。这是一个大胆的举动——如果OpenAI的核心人才都走了,微软的100亿美元投资就打了水漂。但这也是一个威胁:你们不要他,我们要。 然后,真正的海啸来了。OpenAI的700多名员工签署了一封公开信,威胁集体辞职。这不是几个高管,而是几乎整个公司。信的内容很简单:让奥特曼回来,否则我们都走。 最令人震惊的是:签名名单里有伊尔亚·苏茨克维。 那天晚上,苏茨克维发了一条推特:"我对自己参与董事会的行动深感后悔。我从未想过要伤害OpenAI。我热爱我们共同建立的一切,我将尽我所能重新团结公司。" 这条推文在AI圈子里引发了巨大的困惑。他为什么改变主意了?是压力太大了吗?还是他意识到自己错了? 真相可能更复杂。苏茨克维是一个科学家,不是一个政治家。他基于原则做出了解雇奥特曼的决定——他真诚地相信这对公司的使命是正确的。但当他看到自己的行动可能导致整个公司崩溃时,他面临了一个痛苦的选择:坚持原则,还是拯救机构? 他选择了后者。但这个选择也意味着他在OpenAI的时代结束了。 周二,奥特曼回归。董事会重组。苏茨克维退出董事会,但保留了首席科学家的头衔。表面上看,危机解决了。但所有人都知道,事情已经无法回到从前。 ## 第七章:僧侣与新使命 接下来的几个月,苏茨克维成了OpenAI的幽灵。他很少出现在办公室,很少参加会议。"伊尔亚去哪儿了?"成了公司内部的一个梗。 有人说他在家里远程工作,有人说他的权限被限制了,还有人说他在和奥特曼进行艰难的和解谈判。奥特曼在公开场合很小心,说他们正在"讨论伊尔亚如何继续在OpenAI工作"。但这种模糊的表述本身就说明了问题。 2024年5月,靴子落地了。苏茨克维宣布离开OpenAI。 但真正的冲击波是几小时后到来的。简·雷克,超级对齐团队的联合负责人,也宣布辞职。他的离职声明毫不留情:"OpenAI的安全文化已经为光鲜的产品让路。"他说,超级对齐团队一直在"逆风航行","为计算资源而挣扎"。那个20%的承诺?从未完全兑现。 其他安全研究员陆续离职。超级对齐团队被解散。苏茨克维在OpenAI建立的安全研究体系,在他离开后迅速瓦解了。 但苏茨克维没有消失很久。一个月后,他宣布了一家新公司:Safe Superintelligence Inc.。 公司网站极其简洁,只有几段话。但每个字都经过精心选择:"我们的使命、产品和商业模式三位一体:一个安全的超级智能。这是我们唯一的关注点。" 这是对OpenAI模式的直接批判。不再有"利润上限"的复杂结构,不再有在使命和商业之间的平衡。SSI的商业模式就是它的使命。公司"免受短期商业压力的影响","不受管理开销或产品周期的干扰"。 苏茨克维进入了"僧侣模式"。他停止了公开演讲,停止了社交媒体,几乎停止了所有与外界的联系。他的联合创始人丹尼尔·格罗斯说:"伊尔亚现在只做一件事:思考如何构建安全的超级智能。" 公司迅速筹集了10亿美元。投资者名单保密,但据说包括一些相信长期主义的科技亿万富翁。他们不期待短期回报,他们投资的是一个理念:也许,只是也许,有可能创造一个足够纯粹的研究环境,在技术能力超越我们控制之前解决对齐问题。 ## 结论:信徒的博弈 2024年秋天的一个晚上,在斯坦福大学的一个小型研讨会上,有人问杰弗里·辛顿:你如何评价伊尔亚解雇奥特曼的决定? 辛顿,这位刚刚获得诺贝尔奖的AI教父,毫不犹豫地说:"我为他感到骄傲。" 房间里一片寂静。辛顿继续说:"伊尔亚做了他认为正确的事。在一个充满了追逐利润和炒作的行业里,他选择了原则。这需要巨大的勇气。" 有人问:但他失败了,不是吗?奥特曼回来了,他被迫离开了。 辛顿摇了摇头:"这取决于你如何定义失败。如果目标是赢得一场公司政治斗争,那是的,他失败了。但如果目标是提醒世界AI安全的重要性,引发一场关于我们应该如何开发AGI的全球讨论,那么他成功了。" 这或许是理解苏茨克维的关键。他不是一个政治家,不是一个商人,甚至不是一个传统意义上的科学家。他是一个信徒。 他的第一个信仰是:规模能够解锁智能。当整个领域都在做小模型时,他坚信大模型能够工作。他赌对了,这场赌博创造了我们今天所处的AI时代。 他的第二个信仰是:我们需要在AI超越我们之前解决对齐问题。这场赌博还在进行中。 Safe Superintelligence Inc.是一个实验。它在测试一个假设:是否可能创造一个完全专注于安全的AI实验室,不受商业周期的干扰,不受投资者季度报告的压力,只专注于一个目标——构建一个不会毁灭人类的超级智能。 这个实验可能会失败。也许纯粹的研究环境无法与商业实验室的资源竞争。也许对齐问题比我们想象的更难。也许AGI会在我们准备好之前到来。 但如果这个实验成功了,如果SSI真的找到了构建安全超级智能的方法,那么苏茨克维将再一次证明:有时候,信念比共识更重要,原则比利润更重要,长期思考比短期收益更重要。 2025年的某一天,在帕洛阿尔托的一间实验室里,苏茨克维正在白板上写公式。他的团队很小,只有几十个研究员,但每个人都是因为相信这个使命而来的。没有产品发布的压力,没有投资者的电话会议,只有一个问题:我们如何确保人类创造的最强大的技术不会毁灭我们? 这是一个没有人知道答案的问题。但如果有人能找到答案,那个人很可能就是那个曾经敲开辛顿办公室门的年轻人,那个说"现在怎么样?"的信徒。 历史会证明他是对还是错。但无论结果如何,伊尔亚·苏茨克维已经在AI的历史上留下了不可磨灭的印记。他不仅帮助创造了这场革命,他还试图确保这场革命不会成为人类的终结。 这或许就是一个真正的科学家所能做的最重要的事情:不仅要问"我们能做什么",更要问"我们应该做什么"。
用Augment写人物小传长文探索,第一篇献给AK。 被称为“Vibe Coding之父”的那个男人 安德烈·卡帕西(Andrej Karpathy),AI教育界的传奇,深度学习的布道者。 他用一门课程启蒙了整整一代AI工程师。 曾被质疑过于理想主义,被批评技术路线错误,但他仍像诗人一样活着,用代码和教学重新定义了人工智能的学习方式。 2017年6月,斯坦福大学。 一个瘦高的年轻人站在讲台上,面对着300多名学生。 他的名字是安德烈·卡帕西,31岁,刚刚完成博士学位。 这是CS231n课程的最后一堂课。 "深度学习不是魔法,"他用略带斯洛伐克口音的英语说道,"它只是微分和矩阵乘法。但当你真正理解它时,它确实像魔法一样美丽。" 台下的学生们屏息凝神。 他们知道,这个人刚刚改变了他们的人生轨迹。 在接下来的几年里,这些学生将成为OpenAI、Google、Tesla、Meta的核心工程师。 他们将构建GPT、DALL-E、自动驾驶系统。 他们将重新定义人工智能的边界。 而这一切,都始于一个来自斯洛伐克小镇的移民少年,和他对理解世界的纯粹渴望。 让我带你走进他的传奇人生,感受他的教学哲学,赞叹他的技术洞察,理解他如何用一种近乎诗意的方式,让复杂的数学变成了改变世界的力量。 1986年10月23日,斯洛伐克布拉迪斯拉发。 安德烈·卡帕西出生在一个普通的工程师家庭。 那时的斯洛伐克还是捷克斯洛伐克社会主义共和国的一部分。 铁幕依然高悬,计算机是稀罕物品。 但小安德烈从小就对数字和模式着迷。 他会花几个小时观察墙纸上的图案,试图找出其中的规律。 他会用铅笔在纸上画出复杂的几何图形,然后计算它们的面积和周长。 "我总是想要理解事物是如何运作的,"卡帕西后来回忆道,"不仅仅是表面的现象,而是背后的原理。" 1989年,柏林墙倒塌。 东欧的政治格局发生了翻天覆地的变化。 卡帕西的父母意识到,这是一个改变家庭命运的机会。 1991年,5岁的安德烈跟随父母移民到加拿大多伦多。 这次移民彻底改变了他的人生轨迹。 在加拿大,计算机不再是奢侈品。 10岁时,安德烈第一次接触到个人电脑。 他立即被这个神奇的机器迷住了。 "我记得第一次看到屏幕上的像素时的震撼,"卡帕西说,"我意识到,这些小小的点可以组成任何图像,任何信息。" 他开始疯狂地学习编程。 从BASIC到C++,从简单的计算器程序到复杂的图形渲染。 但与其他程序员不同,安德烈更关心的不是程序能做什么,而是程序是如何思考的。 "我想要理解计算机是如何'看见'世界的,"他解释道,"这个问题一直困扰着我。" 高中时,安德烈已经是学校里最优秀的数学和计算机科学学生。 但他并不满足于解决标准的编程问题。 他开始思考更深层的问题: 机器能否真正理解图像? 算法能否模拟人类的视觉系统? 人工智能的本质是什么? 这些问题将伴随他一生,并最终成为他学术生涯的核心。 2004年,18岁的安德烈进入多伦多大学,主修计算机科学和数学。 在这里,他第一次接触到机器学习的概念。 那时的机器学习还很原始,主要依赖手工设计的特征和简单的分类器。 但安德烈敏锐地意识到,这个领域即将迎来革命性的变化。 "我有一种直觉,"他后来说,"计算机视觉的未来不在于更聪明的算法,而在于更好的数据表示。" 这个直觉将指引他走向深度学习的前沿。 2009年,多伦多大学。 23岁的安德烈·卡帕西即将完成本科学位。 他的成绩优异,有多个研究生院向他伸出橄榄枝。 但他选择了斯坦福大学,不是因为名声,而是因为一个人:李飞飞。 李飞飞刚刚发布了ImageNet数据集,这是一个包含1400万张标注图像的庞大数据库。 她的愿景是让机器学习算法在真实世界的复杂图像上进行训练。 "ImageNet将改变一切,"卡帕西在申请信中写道,"我想要成为这场革命的一部分。" 2011年秋天,卡帕西来到斯坦福,开始了他的博士研究。 李飞飞成为了他的导师,这个选择将彻底改变他的学术轨迹。 "飞飞不仅是一个杰出的研究者,"卡帕西后来说,"她更是一个有远见的思想家。她教会了我如何思考大问题。" 在斯坦福的第一年,卡帕西沉浸在计算机视觉的经典文献中。 他研究SIFT特征、HOG描述符、支持向量机。 但他总感觉缺少了什么。 "这些方法都很聪明,"他在日记中写道,"但它们缺乏优雅。它们像是在用胶带和铁丝修补一个根本性的问题。" 2012年,一切都改变了。 Geoffrey Hinton的团队在ImageNet挑战赛中使用深度卷积神经网络,取得了突破性的成果。 错误率从26%骤降到15%。 这不仅仅是一个数字的改进,而是一个范式的转变。 "我记得看到那些结果时的震撼,"卡帕西回忆道,"我意识到,我们一直在用错误的方法解决问题。" 卡帕西立即投入到深度学习的研究中。 他开始重新思考计算机视觉的基本问题。 不是如何设计更好的特征,而是如何让机器自己学习特征。 不是如何优化分类器,而是如何构建端到端的学习系统。 2013年,卡帕西发表了他的第一篇重要论文:《Deep Visual-Semantic Alignments for Generating Image Descriptions》。 这篇论文提出了一个革命性的想法:让神经网络不仅能识别图像,还能用自然语言描述图像。 "我们想要建造一个能够'看见'并'说话'的系统,"卡帕西解释道。 这个想法听起来简单,但实现起来极其困难。 它需要将计算机视觉和自然语言处理结合起来,需要处理两种完全不同的数据模态。 卡帕西花了两年时间完善这个系统。 他设计了新的神经网络架构,开发了新的训练算法,收集了大量的图像-文本对数据。 2015年,当这个系统能够准确描述复杂图像时,整个学术界都震惊了。 "这是人工智能历史上的一个里程碑,"一位评审员写道,"它证明了机器可以真正理解视觉世界。" 但对卡帕西来说,这只是开始。 他意识到,深度学习的潜力远远超出了人们的想象。 它不仅能解决计算机视觉问题,还能解决语言理解、语音识别、甚至创造性任务。 "我们正站在一个新时代的门槛上,"他在博士论文的结论中写道,"机器学习将重新定义智能的含义。" 2015年春天,斯坦福大学。 博士即将毕业的安德烈·卡帕西面临一个选择: 是去工业界追求高薪工作,还是留在学术界继续研究? 但他选择了第三条路:教学。 李飞飞邀请他共同开发一门新课程:CS231n《视觉识别的卷积神经网络》。 "我们需要培养下一代的AI工程师,"李飞飞说,"而你是最合适的人选。" 卡帕西接受了这个挑战。 但他很快发现,教授深度学习比研究深度学习更加困难。 "如何向从未接触过神经网络的学生解释反向传播?"他在准备课程时思考,"如何让抽象的数学概念变得直观易懂?" 卡帕西决定采用一种全新的教学方法。 他不会从理论开始,而是从直觉开始。 他不会用复杂的数学公式吓唬学生,而是用简单的类比和可视化。 "我想要让每个学生都能感受到深度学习的美丽,"他说。 2016年春天,CS231n首次开课。 第一堂课,卡帕西站在讲台上,面对着200多名学生。 他没有从传统的机器学习理论开始,而是展示了一张猫的照片。 "这张图片对你来说很简单,"他说,"你立即就能识别出这是一只猫。但对计算机来说,这只是一个由数百万个数字组成的矩阵。我们的任务就是教会计算机如何从这些数字中看到猫。" 这个开场立即抓住了所有学生的注意力。 接下来的90分钟里,卡帕西用生动的类比和精美的可视化,解释了神经网络的基本概念。 他把神经元比作乐高积木,把反向传播比作河流寻找最短路径。 他用动画展示了卷积操作,用交互式图表解释了梯度下降。 "这是我上过的最好的计算机科学课程,"一名学生在课后评价中写道,"卡帕西教授让复杂的概念变得如此清晰和美丽。" 但真正让CS231n成为传奇的,是卡帕西的编程作业设计。 他没有让学生使用现成的深度学习框架,而是要求他们从零开始实现神经网络。 "我想要学生们理解每一行代码,"卡帕西解释道,"只有当你能够从头构建一个神经网络时,你才真正理解它。" 第一个作业是实现一个简单的线性分类器。 第二个作业是实现一个全连接神经网络。 第三个作业是实现卷积神经网络。 每个作业都配有详细的说明、可视化工具和自动评分系统。 学生们需要花费数十小时调试代码、理解算法、优化性能。 "这些作业比我想象的要困难得多,"一名学生抱怨道,"但当我的神经网络终于能够识别图像时,那种成就感是无法言喻的。" 2017年,斯坦福决定将CS231n的讲座录制并发布到YouTube上。 这个决定改变了全球AI教育的格局。 突然间,世界各地的学生都能够免费学习最前沿的深度学习知识。 视频观看量迅速突破百万,然后是千万。 来自印度、中国、巴西、尼日利亚的学生们在评论区分享他们的学习心得。 "CS231n不仅仅是一门课程,"一位来自孟买的学生写道,"它是我进入AI世界的门票。" 卡帕西成为了全球AI教育的偶像。 他的讲课风格被无数教师模仿,他的课程设计被世界各地的大学采用。 但更重要的是,他培养的学生们开始在工业界发光发热。 OpenAI的核心团队中有多名CS231n的毕业生。 Google Brain、DeepMind、Tesla的AI部门都有CS231n校友的身影。 "安德烈不仅仅是一个老师,"李飞飞评价道,"他是一个启蒙者。他启蒙了整整一代AI工程师。" 2015年12月,旧金山。 一群硅谷的精英聚集在一起,讨论人工智能的未来。 参与者包括埃隆·马斯克、山姆·奥特曼、彼得·蒂尔、里德·霍夫曼。 他们都意识到,人工智能即将迎来重大突破。 但他们也担心,这种强大的技术可能被少数大公司垄断。 "我们需要确保AI的发展造福全人类,"马斯克宣布,"而不是少数人。" 于是,OpenAI诞生了。 这是一个非营利组织,致力于开发安全、有益的人工智能。 创始团队需要招募世界上最优秀的AI研究者。 安德烈·卡帕西是他们的首选目标之一。 "安德烈代表了AI研究的最高水准,"山姆·奥特曼说,"更重要的是,他有着纯粹的科学理想主义。" 2016年6月,卡帕西加入了OpenAI。 他离开了斯坦福的舒适环境,来到旧金山的一个小办公室。 这里没有大学的稳定资助,没有终身教职的保障。 但这里有一群志同道合的研究者,和一个改变世界的梦想。 "我想要参与构建真正的人工智能,"卡帕西解释他的选择,"而不仅仅是研究它。" 在OpenAI的早期日子里,团队规模很小,只有十几个研究员。 每个人都身兼数职:研究员、工程师、产品经理。 卡帕西主要负责计算机视觉和多模态学习的研究。 他的第一个项目是开发一个能够玩Atari游戏的AI系统。 这听起来很简单,但实际上极其复杂。 AI需要从像素级的视觉输入中学习游戏规则,制定策略,做出决策。 "这是一个完美的测试平台,"卡帕西说,"它结合了视觉理解、序列学习和决策制定。" 经过几个月的努力,他们的系统能够在多个Atari游戏中达到人类水平的表现。 但卡帕西并不满足于此。 他开始思考更大的问题:如何让AI理解真实世界的复杂性? 2017年,卡帕西启动了一个雄心勃勃的项目:Universe。 这是一个通用的AI训练平台,能够让AI在数千种不同的环境中学习。 从简单的网页游戏到复杂的3D模拟器,从文本编辑器到图像处理软件。 "我们想要创造一个AI的健身房,"卡帕西解释道,"让AI能够在各种任务中锻炼和成长。" Universe项目展示了卡帕西思维的广度和深度。 他不仅仅关注技术细节,更关注AI发展的大方向。 他相信,真正的人工智能必须具备通用性,必须能够适应各种不同的环境和任务。 但在OpenAI的两年里,卡帕西也感受到了理想与现实的冲突。 研究需要大量的计算资源,而计算资源需要资金。 非营利组织的资金来源有限,很难与Google、Facebook等大公司竞争。 "我们有最好的想法,但我们缺乏执行这些想法的资源,"卡帕西在日记中写道。 2017年底,一个新的机会出现了。 埃隆·马斯克邀请卡帕西加入特斯拉,领导自动驾驶技术的开发。 这是一个艰难的选择。 离开OpenAI意味着放弃纯粹的研究自由,但加入特斯拉意味着能够将AI技术应用到真实世界的问题上。 "我想要看到AI技术真正改变人们的生活,"卡帕西最终做出了决定,"而自动驾驶是最有可能实现这个目标的领域。" 2018年1月,卡帕西正式加入特斯拉,担任AI总监。 他即将面临职业生涯中最大的挑战:让汽车学会像人类一样驾驶。 2018年1月,加州帕洛阿尔托。 安德烈·卡帕西走进特斯拉总部,开始了他职业生涯中最具挑战性的章节。 埃隆·马斯克亲自迎接了他。 "安德烈,我需要你帮我解决一个问题,"马斯克直截了当地说,"如何让汽车像人类一样看见世界?" 这个问题听起来简单,但实际上极其复杂。 当时的自动驾驶行业主要依赖激光雷达(LiDAR)技术。 Waymo、Uber、Cruise等公司都在车顶安装昂贵的激光雷达传感器。 但马斯克有一个激进的想法:仅使用摄像头实现自动驾驶。 "人类只用两只眼睛就能驾驶,"马斯克论证道,"为什么汽车需要激光雷达?" 这个观点在自动驾驶行业引起了巨大争议。 大多数专家认为这是不可能的,甚至是危险的。 激光雷达能够精确测量距离,在黑暗和恶劣天气中工作。 而摄像头容易受到光照、天气、遮挡的影响。 "马斯克的纯视觉方案是一个技术死胡同,"一位Waymo的工程师公开批评道。 但卡帕西看到了不同的可能性。 "人类视觉系统是地球上最复杂、最精密的信息处理系统,"他在第一次团队会议上说,"如果我们能够复制它,我们就能超越任何传感器的组合。" 卡帕西开始重新设计特斯拉的自动驾驶系统。 他抛弃了传统的模块化方法,采用了端到端的深度学习架构。 不是分别处理感知、定位、规划、控制,而是用一个统一的神经网络处理所有任务。 "我们要让神经网络直接从像素到方向盘,"卡帕西解释道。 这个想法在特斯拉内部也引起了争议。 传统的汽车工程师习惯于模块化、可解释的系统。 而卡帕西提出的方案是一个巨大的"黑盒子"。 "如果系统出错了,我们怎么知道原因?"一位工程师质疑道。 "如果系统是正确的,我们为什么需要知道原因?"卡帕西反问道。 为了实现这个愿景,卡帕西需要解决三个关键问题: 数据、计算、架构。 首先是数据问题。 传统的机器学习依赖人工标注的数据集。 但自动驾驶需要处理无穷无尽的边缘情况。 卡帕西的解决方案是利用特斯拉车队本身。 "我们有超过100万辆特斯拉在路上行驶,"他说,"它们就是我们的数据收集器。" 特斯拉开发了一套自动数据标注系统。 当车辆遇到困难情况时,系统会自动记录视频片段。 然后用众包的方式对这些片段进行标注。 这创造了世界上最大的真实世界驾驶数据集。 其次是计算问题。 训练大型神经网络需要巨大的计算资源。 卡帕西说服马斯克投资建设一台超级计算机。 "我们需要世界上最强大的AI训练集群,"他论证道。 2021年,特斯拉的Dojo超级计算机上线。 它拥有超过1万个GPU,计算能力达到1.1 exaflops。 这使得特斯拉能够训练前所未有的大型神经网络。 最后是架构问题。 卡帕西设计了一个名为HydraNet的多任务神经网络。 它能够同时处理目标检测、深度估计、语义分割、运动预测等多个任务。 "我们不是在训练多个专门的网络,"卡帕西解释道,"而是在训练一个通用的视觉智能系统。" 2019年,特斯拉发布了全自动驾驶(FSD)测试版。 虽然还不完美,但它展示了纯视觉方案的巨大潜力。 汽车能够在复杂的城市环境中导航,处理红绿灯、行人、自行车。 "这是自动驾驶历史上的一个里程碑,"一位行业分析师评论道,"特斯拉证明了视觉方案是可行的。" 但争议依然存在。 批评者指出,FSD系统仍然会犯错误,有时甚至是危险的错误。 他们质疑,仅凭摄像头是否真的足够安全。 "我们不是在追求完美,"卡帕西回应道,"我们是在追求比人类更好。而人类驾驶员每年造成130万人死亡。" 2022年7月,卡帕西宣布离开特斯拉。 他在Twitter上写道:"这是一个艰难的决定,但我想要回到我的第一热爱:AI研究和教育。" 他在特斯拉的四年半时间里,彻底改变了自动驾驶的技术路线。 他证明了纯视觉方案不仅可行,而且可能是最优的解决方案。 更重要的是,他展示了深度学习在真实世界应用中的巨大潜力。 "安德烈在特斯拉的工作将被载入史册,"马斯克在他离职时评价道,"他重新定义了机器如何看见世界。" 2022年8月,旧金山。 安德烈·卡帕西重新走进OpenAI的办公室。 六年过去了,这里已经发生了翻天覆地的变化。 曾经的小团队已经成长为数百人的组织。 曾经的非营利理想已经演变为商业现实。 但最大的变化是技术本身。 OpenAI已经从一个研究实验室转变为AI革命的引领者。 "欢迎回家,安德烈,"山姆·奥特曼迎接他,"我们有很多工作要做。" 卡帕西回到OpenAI时,GPT-3已经震惊了世界。 这个拥有1750亿参数的语言模型展示了前所未有的能力。 它能够写诗、编程、翻译、推理。 它让人们第一次真正相信,通用人工智能可能即将到来。 但OpenAI的团队知道,GPT-3只是开始。 他们正在开发GPT-4,一个更大、更强、更智能的模型。 卡帕西的任务是帮助优化GPT-4的训练和部署。 "我们正站在历史的转折点上,"卡帕西在重新加入后的第一次团队会议上说,"我们有机会创造真正改变世界的技术。" 在OpenAI的这段时间里,卡帕西主要专注于两个方面: 模型优化和安全对齐。 模型优化涉及如何让GPT-4更高效、更稳定、更可靠。 这需要深入理解Transformer架构的每一个细节。 卡帕西利用他在特斯拉积累的大规模系统经验,帮助团队解决了许多技术难题。 "安德烈有一种独特的能力,"一位同事评价道,"他能够从理论和实践两个角度理解复杂系统。" 安全对齐则是一个更加复杂的问题。 如何确保强大的AI系统按照人类的价值观行事? 如何防止AI系统产生有害或偏见的输出? 这些问题没有标准答案,需要大量的实验和迭代。 卡帕西参与了RLHF(人类反馈强化学习)技术的开发。 这是一种让AI系统从人类偏好中学习的方法。 "我们不仅要让AI变得聪明,"卡帕西说,"更要让它变得善良。" 2022年11月30日,OpenAI发布了ChatGPT。 这个基于GPT-3.5的对话系统立即引爆了全球。 在短短两个月内,用户数量突破1亿。 人们第一次体验到了真正智能的AI助手。 "ChatGPT不仅仅是一个产品,"卡帕西观察道,"它是一个文化现象。它改变了人们对AI的认知。" 但成功也带来了新的挑战。 随着ChatGPT的普及,关于AI安全、AI伦理、AI监管的讨论变得更加激烈。 政府开始关注AI的发展,媒体开始报道AI的风险。 "我们创造了一个强大的工具,"卡帕西反思道,"现在我们必须确保它被正确使用。" 2023年2月,卡帕西再次宣布离开OpenAI。 这次离开更加出人意料,因为正值公司最辉煌的时刻。 "我想要回到我的根本使命,"他在离职信中写道,"教育和启发下一代AI研究者。" 在OpenAI的第二段经历让卡帕西见证了AI从实验室走向大众的历史性时刻。 他参与了GPT-4的开发,见证了ChatGPT的诞生。 更重要的是,他深刻理解了AI技术的巨大潜力和责任。 "我们正在创造一种新的智能形式,"他在离职演讲中说,"这不仅是技术挑战,更是哲学挑战。" 2024年2月,推特。 安德烈·卡帕西发布了一条看似随意的推文: "我越来越多地进行'vibe coding'——与AI对话式编程,依靠直觉和感觉,而不是严格的规划。这感觉像是编程的未来。" 这条推文引发了程序员社区的激烈讨论。 什么是"vibe coding"? 这是编程的进步还是倒退? 它会取代传统的软件开发方法吗? 卡帕西的这个概念迅速传播,成为了2024年最热门的编程话题之一。 "Vibe coding不是一种新的编程语言或框架,"卡帕西在后续的解释中写道,"它是一种新的编程哲学。" 传统的编程需要程序员精确地指定每一个步骤。 你需要定义变量、设计算法、处理异常、优化性能。 这是一个严格、逻辑、线性的过程。 但vibe coding不同。 它更像是与一个智能助手的对话。 你描述你想要什么,AI帮你实现。 你提供高层次的意图,AI处理底层的细节。 "这就像是从汇编语言到高级语言的转变,"卡帕西类比道,"我们正在抽象化编程的复杂性。" 卡帕西开始在YouTube上发布vibe coding的演示视频。 在一个视频中,他用自然语言描述了一个想法: "我想要一个能够分析股票价格趋势的工具。" 然后,他与Claude AI进行对话,逐步完善这个想法。 AI建议使用哪些数据源,推荐合适的算法,甚至生成完整的代码。 整个过程流畅自然,就像两个程序员在讨论问题。 "这不是在写代码,"卡帕西说,"这是在思考代码。" 但vibe coding也引发了争议。 传统的程序员担心这会降低代码质量。 他们认为,不理解底层实现的程序员无法写出高质量的软件。 "这是编程技能的退化,"一位资深开发者批评道,"我们正在培养一代不会真正编程的程序员。" 卡帕西对这些批评有不同的看法。 "每一次编程抽象的提升都会引发类似的担忧,"他回应道,"从机器语言到汇编语言,从汇编语言到高级语言,从高级语言到框架。但每一次抽象都让我们能够解决更复杂的问题。" 他认为,vibe coding不会取代传统编程,而是会补充它。 对于原型开发、快速实验、创意探索,vibe coding是理想的。 对于系统级编程、性能优化、安全关键应用,传统方法仍然必要。 "我们不是在替换工具,"卡帕西说,"我们是在扩展工具箱。" 2024年下半年,主要的AI公司都开始推出vibe coding工具。 GitHub Copilot、Claude Artifacts、Cursor AI都采用了对话式编程界面。 程序员开始尝试这种新的工作方式。 一些人发现它极大地提高了生产力。 另一些人则觉得它缺乏精确性和控制力。 "Vibe coding就像是编程界的印象派绘画,"一位用户评论道,"它不追求精确的细节,而是追求整体的感觉和氛围。" 卡帕西继续推广这个概念。 他在会议上演讲,在博客中写作,在社交媒体上讨论。 他相信,vibe coding代表了人机协作的未来。 "我们正在进入一个新的时代,"他说,"人类提供创意和直觉,AI提供执行和优化。这种合作将释放前所未有的创造力。" 但对卡帕西来说,vibe coding不仅仅是一种编程方法。 它更是一种哲学态度: 相信直觉,拥抱不确定性,享受创造的过程。 "编程应该是快乐的,"他说,"它应该像写诗一样,充满灵感和惊喜。" 这种诗意的编程观念,正是卡帕西独特魅力的体现。 他不仅是一个技术专家,更是一个思想家和艺术家。 2024年7月,推特。 安德烈·卡帕西发布了一条改变他人生轨迹的推文: "我正在创办Eureka Labs,一家'AI原生'教育公司。我们的目标是创造AI教师,让任何人都能学习任何东西。" 这个宣布震惊了整个AI社区。 卡帕西放弃了在大公司的高薪职位,选择重新创业。 而且,他选择的不是最热门的AI应用领域,而是教育。 "为什么是教育?"记者问他。 "因为教育是人类最重要的活动,"卡帕西回答,"它决定了我们的未来。" Eureka Labs的愿景是革命性的: 创造个性化的AI教师,为每个学习者提供定制化的教育体验。 不再是一对多的传统课堂,而是一对一的智能辅导。 不再是标准化的课程内容,而是适应性的学习路径。 "想象一下,每个人都有一个像苏格拉底一样的老师,"卡帕西描述他的愿景,"一个能够理解你的学习风格、适应你的节奏、激发你的好奇心的AI导师。" 这个想法的灵感来自卡帕西多年的教学经验。 在斯坦福教授CS231n时,他发现每个学生的学习需求都不同。 有些学生需要更多的数学背景,有些需要更多的编程练习。 有些学生喜欢视觉化的解释,有些偏好抽象的理论。 但传统的课堂教学无法满足这种个性化需求。 "一个老师面对300个学生,不可能为每个人定制内容,"卡帕西说,"但AI可以。" Eureka Labs的第一个产品是一个AI编程导师。 它能够根据学习者的水平和目标,生成个性化的编程课程。 如果你是初学者,它会从基础概念开始。 如果你有经验,它会直接进入高级主题。 如果你在某个概念上遇到困难,它会提供额外的解释和练习。 "这不是一个静态的课程,"卡帕西解释道,"这是一个动态的、适应性的学习伙伴。" 但创造AI教师比想象中更困难。 教学不仅仅是传递信息,更是激发理解。 一个好的老师知道何时推进,何时放慢。 知道如何鼓励学生,如何纠正错误。 知道如何让抽象的概念变得具体,让复杂的问题变得简单。 "我们不是在构建一个搜索引擎,"卡帕西说,"我们是在构建一个智能的、有同理心的教育伙伴。" 为了实现这个目标,Eureka Labs开发了一套新的AI训练方法。 他们收集了大量的教学对话数据,分析了优秀教师的教学模式。 他们研究了认知科学和教育心理学的最新成果。 他们甚至邀请了世界各地的优秀教师参与AI系统的训练。 "我们想要将人类最好的教学智慧编码到AI中,"卡帕西说。 2024年底,Eureka Labs发布了第一个AI编程导师的测试版。 早期用户的反馈非常积极。 "这就像有一个24小时在线的私人教师,"一位用户评价道,"它比我遇到过的任何在线课程都要好。" 但卡帕西的野心不止于编程教育。 他想要创造能够教授任何学科的AI导师: 数学、物理、历史、文学、艺术。 "知识是相互连接的,"他说,"一个真正智能的教师应该能够帮助学生理解这些连接。" Eureka Labs的长期愿景是创造一个全球性的AI教育平台。 让世界上任何地方的任何人都能接受最高质量的教育。 消除地理、经济、语言的教育障碍。 "教育是人类最基本的权利,"卡帕西说,"AI可以让这个权利真正普及。" 但这个愿景也面临着挑战。 如何确保AI教师的准确性和可靠性? 如何处理不同文化和价值观的差异? 如何平衡个性化和标准化的需求? 这些问题没有简单的答案。 但卡帕西相信,通过不断的实验和改进,这些问题都能得到解决。 "我们正在开创一个新的教育时代,"他说,"这不会一蹴而就,但它值得我们为之奋斗。" 2024年秋天,旧金山。 安德烈·卡帕西坐在Eureka Labs的办公室里,面前是三台显示器。 左边的屏幕显示着复杂的神经网络架构图。 中间的屏幕运行着训练代码,损失函数曲线缓缓下降。 右边的屏幕是一个文本编辑器,里面写着他的最新博客文章。 这个场景完美地概括了卡帕西的工作方式: 技术与人文的完美结合。 "编程对我来说不仅仅是工作,"卡帕西在一次采访中说,"它是一种表达方式,一种艺术形式。" 这种对编程的诗意理解,让卡帕西在技术界独树一帜。 他不仅关心代码的功能,更关心代码的美感。 他相信,优雅的代码不仅更容易理解,也更容易维护和扩展。 "好的代码就像好的诗歌,"他说,"每一行都有其存在的理由,每一个字符都恰到好处。" 这种美学观念体现在他的所有工作中。 在CS231n的课程设计中,他追求概念解释的清晰和优雅。 在特斯拉的神经网络架构中,他寻求简洁和高效的平衡。 在OpenAI的模型优化中,他关注数学的美丽和实用性的统一。 "技术和艺术从来不是对立的,"卡帕西说,"最好的技术往往具有艺术的品质。" 卡帕西的这种哲学深深影响了他的学生和同事。 许多人从他那里学到的不仅仅是技术知识,更是一种思维方式: 如何用美学的眼光看待技术问题。 如何在复杂性中寻找简洁性。 如何在抽象中发现具体的美丽。 "安德烈教会了我,编程可以是一种冥想,"一位前学生说,"当你真正理解一个算法时,你会感受到一种纯粹的快乐。" 但卡帕西的哲学不仅限于技术层面。 他对AI的发展有着深刻的人文思考。 他担心AI可能带来的社会影响,关心技术发展的伦理问题。 "我们不仅要问AI能做什么,"他说,"更要问AI应该做什么。" 在特斯拉工作期间,卡帕西经常思考自动驾驶的道德问题。 如果汽车必须在两个行人之间做出选择,它应该如何决定? 如果系统不确定前方是否有障碍物,它应该如何行动? 这些问题没有标准答案,但它们必须被认真考虑。 "技术不是中性的,"卡帕西说,"每一个算法都体现了设计者的价值观。" 在OpenAI的工作中,卡帕西参与了AI安全和对齐的研究。 他相信,随着AI系统变得越来越强大,确保它们与人类价值观一致变得越来越重要。 "我们正在创造一种新的智能形式,"他说,"我们有责任确保这种智能是善良的。" 卡帕西的人文关怀也体现在他对教育的热情上。 他相信,教育是解决社会不平等的最有效方式。 通过AI技术,可以让高质量的教育变得更加普及和可及。 "知识应该是免费的,"他说,"AI可以帮助我们实现这个理想。" 但卡帕西也意识到,技术本身不能解决所有问题。 它需要与人文精神、社会责任、伦理考量相结合。 "我们需要的不仅仅是更聪明的AI,"他说,"我们需要更智慧的AI。" 这种智慧不仅体现在技术能力上,更体现在对人类需求的理解上。 体现在对社会影响的考虑上。 体现在对未来责任的承担上。 "真正的人工智能不是模仿人类,"卡帕西思考道,"而是增强人类。它应该让我们变得更好,而不是取代我们。" 这种哲学观念指导着卡帕西的所有工作。 从技术研究到产品开发,从教学活动到创业实践。 他始终坚持一个原则:技术应该服务于人类的福祉。 "我们正在塑造未来,"他说,"我们有责任确保这个未来是美好的。" 2024年12月,斯坦福大学。 38岁的安德烈·卡帕西重新站在熟悉的讲台上。 台下坐着新一代的AI研究者,他们的眼中闪烁着与当年的卡帕西同样的好奇光芒。 "十年前,我站在这个讲台上学习深度学习,"卡帕西开始他的演讲,"今天,我想和你们分享我学到的最重要的一课:永远保持学习者的心态。" 演讲结束后,学生们围绕着卡帕西,提出各种问题。 关于技术的,关于职业的,关于人生的。 卡帕西耐心地回答每一个问题,就像他在CS231n课堂上做的那样。 "这就是我想要的生活,"他在日记中写道,"永远学习,永远教学,永远保持对世界的好奇。"
a16z对AI视频生成模型发展趋势的观点,非常认同。 1. 审美更重要 回望绘画史,17—18世纪静物与肖像画,“逼真度”上登峰造极,评判指标从“像不像”转为“好不好看”。 当写实达到极致,人类开始争论的是审美与风格。 2. 没有任何一个视频AI模型能在全维度做到SOTA。 Veo 3强在物理一致性、复杂运动与音画同步 Sora 2强在“自动导演”,从短提示词生出脚本、多镜头、甚至“可社交传播的梗”。 阿里的Wan,开源视频模型, LoRA 风格与运动生态强,生成特定审美或特效。 Grok,偏动漫与动画的便宜快速生成。 字节的Seedance Pro,擅长单次生成多镜头场景。 Hedra,角色长段落对话生成很稳定。 3. 端到端产品才是是真正杠杆,非模型能力 现在AI视频创作,要在多个模型与编辑器中切换。 比如一次家具布景,需要在 Ideogram(文生图与字体/视觉设计)、nano-banana(风格与局部编辑)、Veo 3(视频生成)之间转换. 为一个现有视频添加产品周边。 又要在 nano-banana、Hedra 与 Krea、Kapwing(编辑套件)中切换。 拼端到端体验的时代 Fal 与 Replicate 提供视频AI云托管,Krea 以编辑形态把不同模型纳入同一工作流。 Runway 推出可编辑机位、续帧生成、跨段风格迁移、天气与物体的增删。 Sora Storyboard让人用分镜式的方式精确指定动作序列。 Veo 3.1的更新几乎全部围绕音视频的可控性,而非底层模型性能的提升。 4. 垂直市场深挖 通用模型能力进步慢时,垂直场景机会大幅上升。 比如,谁能成为“家居布景的首选引擎”? 谁能在“营销短片的角色一致性”与“镜头衔接”上做出稳定工业流程? 谁又能把“便宜快速生成动漫风格”变成设计团队的日常生产力? 做到从提示工程、角色持续性、镜头管理、音画控制。 实现跨模型编排与一次性交付。 那才是真正的产品护城河。 成为“编排优势模型” 在视频AI中,性能只是底座,编排才是引擎。 5. 编排优势模型的三层结构 第一层是“能力供给”:不同模型在不同维度具有最优子解(物理、运动、角色、长段落、动漫、速度/成本)。 第二层是“流程复用”:为具体任务建立稳定的链路,把能力从“可用”变为“可复用”,再到“可规模化复用” 例如以分镜为骨架,以角色嵌入为约束,以镜头衔接为节拍,以音画控制为边界。 第三层是“产品封装”:把复杂的编排隐藏在一体化的产品体验之下, 让用户轻松实现一个场景、一段剧情、一种风格。 而不是让用户折腾一个模型、一段提示、一次风格迁移。 竞争力的真正来源不再是“谁的模型更强一点”。 而是“谁的系统更合用、谁的交付更确定”。 不在于证明自己“更强”,而在于让他人“更容易变强”。