宝玉
2个月前
很多公司或者开发者在开发智能体时,为了节约成本,会在一开始就选择便宜的能力较弱的模型,于是要花费很多时间在工程上,但实际上,在原型设计和基线测试阶段,应首先使用当前可用的最强大的模型(例如 Claude 4、o3、Gemini 2.5 Pro 等)来构建智能体 。这样做的目的,是为了建立一个性能基准(Performance Baseline)。通过使用能力最强的模型,可以最大限度地确保智能体能够成功完成任务,从而验证工作流设计、工具定义和指令清晰度的有效性 。   这种策略看似有悖于常规的成本控制直觉,但在AI开发初期却至关重要。在智能体开发中,最大的不确定性并非来自执行效率,而是来自推理能力——即“这个复杂的任务是否有可能被自动化?”。如果从一开始就使用一个能力较弱的模型,当智能体执行失败时,开发者将面临一个难以诊断的困境:失败的原因是指令不够清晰,是工具存在缺陷,还是模型本身就不够“聪明”?这个混杂的变量使得问题排查变得异常困难。 反之,通过从最强模型入手,开发者实际上是在测试中消除或最小化了“模型能力不足”这一变量。如果在这种最优配置下智能体仍然失败,那么问题几乎可以肯定地归结为指令或工具的设计缺陷——这是一个更具体、更易于解决的工程问题。这种方法论首先验证了项目的“可行性”,然后再去优化“经济性”,从而有效地为项目早期阶段去风险,避免团队因过早使用能力不足的模型进行测试而错误地放弃一个本有潜力的应用场景。 一旦通过最强模型成功建立了性能基准,并利用评估框架(Evals)量化了其表现,下一步就是进行迭代优化。开发者可以尝试将系统中部分或全部任务替换为更小、更快或成本更低的模型,然后再次运行评估,观察其性能是否仍在可接受的范围内 。并非所有任务都需要顶级模型的推理能力。一个复杂的智能体系统可能会采用异构模型部署策略:例如,由一个强大的“主管”智能体负责顶层规划和决策,而将一些相对简单的子任务,如意图分类或数据格式化,交由更小、更快的模型来处理 。这种数据驱动的优化过程,使得团队能够在性能、延迟和成本三者之间找到最佳的平衡点 。
宝玉
2个月前
转译:为什么生成式 AI 编程工具和智能体对我没用 作者:Miguel Grinberg 人们总是问我,我是否使用生成式 AI 工具来编程,以及我对它们有何看法。因此,我决定将我的想法写下来,这样以后再有人问起,我就可以直接把这篇文章甩给他们,而不必每次都重复自己的观点。 从标题你大概已经猜到,这不会是一篇吹捧 AI 的博文。但它也不是一篇反对 AI 的文章,至少我不这么认为。市面上已经有太多 AI 吹和 AI 黑写的文章了,我觉得没必要再多我这一篇。虽然在这个话题上我绝非中立,但在这篇文章里,我只想从纯粹技术的角度,分享我个人使用这些工具的真实体验。 AI 并不更快 说真的,生成式 AI 工具对我没用的最主要、也是最重要的原因是:它们并没有让我写代码变得更快。就这么简单。 使用生成式 AI 编程工具来为我写代码,听起来很容易。如果是一个 AI 智能体,那就更方便了,它在我做别的事情时就能直接编辑我的文件。原则上,这一切听起来都很美好。 但问题在于,我需要为这些代码负责。我不能盲目地把它们添加到我的项目中,然后祈祷一切顺利。只有在我彻底审查并确保完全理解了 AI 生成的代码之后,我才可能将其整合进我的项目。我必须有信心在未来能够修改或扩展这段代码,否则我就不能用它。 不幸的是,审查代码实际上比大多数人想象的要困难得多。审查一段不是我写的代码,至少要花掉我与亲手写这段代码相同的时间,甚至更多。我们行业里有句名言,大意是“读代码比写代码更难”。我记得最早将此概念理论化的人是 Joel Spolsky(Stack Overflow 和 Trello 的创始人),在他的文章《有些事你永远不该做,第一部分》中提到了。 你可能会说,可以把 AI 写的代码当成一个“黑箱”。我想,你可以说服自己,只要代码能按预期工作,就可以安全使用,无需审查,这样就能提升一些生产力。但在我看来,这是极不负责任的,因为如果这段代码将来出了问题,AI 是不会承担任何责任的。无论有没有 AI,我永远是我产出的代码的第一负责人。在我看来,承担如此巨大的风险是疯狂的。 这一点在我从事的某些工作中尤为重要,因为这些工作涉及签署合同、法律义务和金钱交易。如果我是以专业人士的身份被雇佣,那我别无选择,只能做到专业。AI 工具无法帮我赚更多钱,也无法让我在更短时间内完成工作。我唯一能通过它实现这些目标的方式,就是牺牲工作质量并引入风险,而这是我绝不愿意做的。 AI 不是生产力倍增器 我听过有人说,生成式 AI 编程工具对他们来说是生产力的“倍增器”或“赋能器”。基本上,持这种观点的人声称,使用生成式 AI 后,他们能工作得更快,也能处理更复杂的问题。可惜的是,这些说法仅仅基于使用者自身的感觉,并没有确凿的数据来支持。我猜,或许有些人审查代码的效率比我高,但我对此表示怀疑。我认为真实情况是,这些人之所以能节省时间,是因为他们只对 AI 生成的代码进行抽查,或者干脆跳过了整个审查阶段——正如我上面所说,这对我来说是绝对无法接受的。 另一个我常听到的论点是,当你需要用一种不熟悉的语言或技术编写代码时,生成式 AI 会很有帮助。对我来说,这同样没什么道理。作为一名软件工程师,我最享受的部分就是学习新事物,所以“不懂”从来都不是我的障碍。你越是练习学习,学习的速度就会越快、越容易!近年来,我为了不同的项目,不得不学习了 Rust、Go、TypeScript、WASM、Java 和 C#,我绝不会把这个学习的过程委托给 AI,哪怕它能帮我节省时间。当然,它也省不了,原因还是上面那些——我要为我产出的代码负责。抱歉,我在这点上有点啰嗦。 AI 代码不同于人类代码 前几天我和一个朋友聊起这些观点,他问我,既然如此,为什么我乐于接受人们为我的开源项目所做的贡献呢?那些不也是别人写的代码吗?为什么人类写的可以,AI 生成的就不行? 真相可能会让一些人感到震惊:用户提交的开源贡献其实也并不能节省我的时间,因为我同样觉得必须对它们进行严格的审查。但是我享受与那些对我的项目感兴趣并花时间报告 bug、请求新功能或提交代码修改的用户合作。这些互动首先是新思想的源泉,它们直接帮助我把工作做得更好。这正是我热爱开源工作的地方! 我的朋友仍然不服气,他建议我可以并行启动一堆 AI 智能体,为我所有未解决的 bug 创建拉取请求(PR)。“这会改变游戏规则的!”他说。不幸的是,这只会花掉我的钱,并且可能让我变得更慢,原因已如前述。即便我们假设 AI 编程工具已经足够成熟(实际上还差得远),能够在很少或没有监督的情况下修复我项目中的问题,我仍然是那个瓶颈,因为所有这些代码在合并之前都必须经过我的审查。 AI 编程工具唾手可得,其不幸的一面是,现在一些用户也用它们来生成低质量、敷衍了事的拉取请求。我已经收到过一些这样的 PR,有趣的是,当我开始阅读那些未经真人编辑和润色的 AI 代码时,一种“恐怖谷”效应在我心中油然而生。当我遇到这类 PR 时,我会开始向提交者追问他们代码中那些奇怪的部分,因为我认为他们需要为自己想要合并的代码负责。但他们,通常很少回应。 AI 不等于实习生 许多 AI 倡导者说,你应该把你的 AI 编程工具当作一个渴望取悦你的实习生。我认为说这话的人,大概从没带过实习生! 在初期,将工作委派给实习生会导致你的生产力下降,原因和我上面列举的差不多。实习生需要大量手把手的指导,他们产出的所有代码在被接受前都需要仔细审查。 但是,实习生会学习并随着时间的推移而进步。你花在审查代码或向实习生提供反馈上的时间并没有被浪费,这是对未来的投资。实习生会吸收你分享的知识,并将其用于你之后分配给他们的新任务中,随着实习期的推进,对他们进行密切监督的需求会逐渐减少。最终,实习生常常因为成长为成功的独立贡献者而被公司聘为全职员工。 而一个 AI 工具,最多只能算是一个患有“顺行性遗忘症”的实习生,这可不是什么好实习生。对于每一项新任务,这个“AI 实习生”都会重置回原点,什么也没学会! 结论 我希望通过这篇文章,我已经清楚地阐述了我在工作中应用生成式 AI 编程工具时遇到的技术性问题。 根据我的经验,AI 编程这回事,天下没有免费的午餐。我相信那些声称 AI 让他们更快或更高效的人,是为了实现这些收益而有意识地选择放宽了他们的质量标准。要么是这样,要么他们这么说,只是因为他们自己能从向你推销 AI 中获利。
宝玉
2个月前
华尔街日报:OpenAI与微软的紧张关系逼近沸点 OpenAI 这家初创公司对合作伙伴日渐不满,甚至考虑向监管机构发起反垄断投诉。 近日,OpenAI与微软之间围绕双方知名的AI合作未来走向,紧张局势急剧升级。 OpenAI希望削弱微软对其AI产品和算力资源的控制,并争取微软同意其转型为盈利性公司。微软的批准对OpenAI至关重要,只有成功转型,它才能进一步融资并实现上市目标。 但相关谈判进展极为艰难。据知情人士透露,过去几周OpenAI高层甚至探讨了一项激烈措施:指责微软在合作期间存在反竞争行为,并考虑寻求联邦监管部门审查双方合同条款是否违反反垄断法律,同时进行公开宣传。 若真采取这一激烈行动,将可能严重破坏两家公司已有六年的合作关系。这段关系被广泛视为科技界史上最成功的伙伴关系之一。多年来,微软为OpenAI的发展提供大量资金支持,以换取对其技术的优先访问权。但如今,双方已成为竞争对手,合作基础变得更加脆弱。 两家公司的代表在联合声明中表示:“我们长期稳定的合作伙伴关系,已为广大用户提供了卓越的AI工具。目前相关谈判仍在进行,我们对未来继续携手共建充满信心。” 据知情人士透露,OpenAI和微软之间的僵局主要围绕OpenAI以30亿美元收购AI编程创业公司Windsurf的交易条款展开。根据现有协议,微软拥有对OpenAI所有知识产权的访问权限。但微软自身也拥有与OpenAI竞争的AI编程工具GitHub Copilot。OpenAI明确反对微软获得Windsurf的知识产权。 OpenAI与《华尔街日报》母公司新闻集团(News Corp)还达成了内容授权协议。 双方的分歧还涉及OpenAI如果转型为公众利益公司后,微软的持股比例问题。知情人士称,目前微软要求的股份比OpenAI愿意提供的更多。 如果OpenAI无法在今年年底前完成转型,它将面临失去200亿美元融资的风险。 拜登政府领导下的美国联邦贸易委员会(FTC)去年已启动了对微软的全面反垄断调查。调查也涵盖了微软此前对OpenAI的投资,以及其他科技巨头对AI领域的投资。 微软最早在2019年向OpenAI投资10亿美元。按照现有合同,微软拥有在其Azure云平台独家销售OpenAI软件工具的权利,并拥有对OpenAI技术的优先使用权。此外,微软应是OpenAI唯一的算力提供方,不过去年微软允许OpenAI启动名为Stargate的自建数据中心项目。 目前,双方已在多个领域展开竞争,包括面向消费者的聊天机器人和面向企业的AI工具。去年,微软CEO萨提亚·纳德拉甚至雇佣了奥特曼的一位竞争对手,秘密开展了一项为微软自主构建AI模型的计划。 OpenAI目前试图在转型计划同时,重新协商合作协议中的一些条款。它希望与更多的云服务提供商合作,以便向更多客户出售技术并获得更充足的计算资源。而微软则希望,即使在OpenAI宣称自身模型达到“人类级别智能”(即人工通用智能,AGI)后,仍能继续获得OpenAI技术。按双方协议,一旦OpenAI实现AGI,双方当前的合作关系即告终止。 “人工通用智能”这一技术的可能性一直备受科技界高管争议。一些人认为它即将到来且触手可及,而另一些人则认为它遥遥无期甚至难以实现,预计AI的发展仍将以渐进式改进为主。
宝玉
2个月前
宝玉
2个月前
一年之间 AI 做高考数学从 47 分到 145 分!AI 数学能力发生了什么?自从去年极客公园搞了次 AI 做数学题,今年各大媒体又开始让 AI 写作文做数学题了,但是估计明年再搞一年 AI 数学题以后就搞不下去了,因为明年的结果只会是各大模型高考数学都是满分的成绩,再也拉不开区分度了! 可能你会好奇今年各个模型的高考数学成绩如何,我觉得“机器之心”这篇《高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二》结果是挺靠谱的。 (参考图1) > "从总分上来看,Gemini 2.5 Pro 考了 145 分,位列第一,Doubao 和 DeepSeek R1 以 144 分紧随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。" > "从客观题来看,各家大模型几乎拉不开差距,最大分差也只有 3 分,第 6 题图像题更是让这几家多模态大模型「全军覆没」。" (参考图2) 从整个测试过程上来说是客观公正的,我把做错的几题验证了一下,o3 第 6 题错的和截图一样,18 题一样忘记化简,第9题在我这里做对了,也就是误差可能有1分。不管怎么说这个结果也比较符合我的感觉: 1. 现在的推理模型在数学方面已经可以轻松在高考级别的数学题上拿到几乎满分的成绩 2. 国内的推理模型像豆包和DeepSeek在数学方面和国际顶尖模型的差距是很小的 ** 从去年到今年:见证AI数学能力的指数级增长 有必要回顾一下去年大模型的高考数学上的表现(摘录自去年极客公园的测试结果 ): > 大模型解决数学问题的能力明显不足,在所有产品的 2 轮测试中,9 款产品的数学平均分只有 47 分。除了 GPT-4o,豆包和文心 4.0是平均分唯二超过 60 分的,分别是 62.5 分和 61.5 分,剩下的六位大模型考生中则只有百小应能够维持 40 分以上的平均分。 (参考图3) 可能你会好奇,为什么才一年时间,这些大模型怎么就从刚刚及格线,一下子到了接近满分的成绩? 这背后离不开推理模型的功劳,如果你留意一下去年和今年参加测试的模型名单,去年的 6 月的时候还没有推理模型的概念,第一个推理模型 o1 还是 2024 年 9 月才发布的,DeepSeek R1 和豆包深度思考推理模型分别是 2025年的 1 月 20 日 和 3 月 5 日发布的。 *** 那么什么是推理模型?为什么推理模型做数学这么厉害呢? 假如说普通的大语言模型是一位会背书的同学:它看过海量课本,别人一问就能很快背出相似句子,但对于没有背过的数学题,它就只能靠蒙了! 推理模型就像一个正在学习如何解应用题的超级学霸 。这个学霸掌握了两种特别的学习方法:思维链(Chain of Thought) 和强化学习(Reinforcement Learning)。 思维链就像老师要求你“写出解题步骤”一样。这个学霸在遇到一个复杂的数学题时,不会直接猜答案,而是会一步一步地把思考过程写下来,比如“第一步,先算出A和B的总和... 第二步,再用总和除以C...”。每一步都建立在前一步的基础上,逻辑清晰,这样就不容易出错了。像豆包的深度思考模型就是通过这种方式,把一个大问题分解成一连串的小问题来解决,大大提高了准确性。 而强化学习则像一个奖励机制 。如果学霸通过一套“解题步骤”(也就是思维链)最终算对了答案,就会得到一朵小红花作为奖励;如果算错了,就没有奖励。通过成千上万次的练习,模型会不断调整自己的“思考路径”,学习哪些步骤是有效的,哪些是无效的,最终形成一套高效、准确的解题策略。就像你做多了练习题,自然而然就知道哪种方法最快最好一样。正是通过这两种方法的结合,豆包深度思考这样的推理模型才能像一个经验丰富的数学家一样,有条不紊地解决复杂的数学问题。 *** 为什么第 6 题大模型都没做对?难在哪里? 图4 就是第 6 题的截图,主要特点就是有一个坐标图,无法直接用自然语言描述。 现在的大语言模型,尤其是在训练时,还是以文本为主,虽然也支持图片的输入和输出,但是在图片识别的准确性上,还不能特别精确,比如图 6 右下角的坐标图,以现在 AI 的多模态能力,还不足以完整准确的理解这个坐标轴的数值和上面的箭头角度等信息。 并不是因为大模型不会做,而是它输入的信息是不完整的,就会影响到输出的准确性。 随着模型在多模态能力的进步,未来应该就不会是问题了。 *** 未来展望:高考数学将不再是AI的"试金石" 以现在推理模型在数学上的表现,在高考上已经没有什么区分度了,这就是为什么模型的评分标准也一直在升级,比如现在大模型在数学方面的评测基准之一是 FrontierMath,由 70 位数学家原创的 300 道研究级数学题,远超高考数学难度,目前的推理模型还只是突破 了 25% 左右。 ** 最后 1. 不必对于 AI 能力产生不必要的焦虑,AI 数学能力强,并不代表就能取代人类,相反我们可以让 AI 成为学习上的助手 2. 豆包与 DeepSeek 凭一分之差证明国产 AI 和国外顶尖模型的差距越来越小 3. 未来比拼模型能力的,不是光看分数,而是谁能把严谨推理与多模态理解真正融入日常应用场景中,让 AI 的语言能力、推理能力、数学能力能为人类所用,帮助人更好的提升效率。
宝玉
2个月前
学好基本功,AI才能真正助你一臂之力 作者:Manda Putra 我最近一直在尝试把AI融入到日常工作中。必须承认,在处理像增删改查(CRUD)、数据解析这类琐碎任务时,AI确实是个神器。你只需要下达指令,它就能帮你搞定,极大地解放了生产力。但软件开发远不止于此,我们还需要整合系统、性能优化、技术研究,这些都需要真正的理解力。 今天在咖啡馆工作时,我旁边坐着一位同行。他也在用AI写代码,这很正常,我也用。但让我忍俊不禁的是,他为了解决一个极其基础的问题,竟然在和AI反复“拉扯”。那个问题是什么呢?仅仅是一个CSS元素的居中,或是一个忘记绑定`onClick`点击事件的低级Bug。 我内心的独白是:“简直可笑,花几分钟学一下CSS的Flexbox布局,不比你这样反复试错问AI快得多吗?” 我当然不会说出口,毕竟萍水相逢,我也不想打击一个年轻工程师的热情。但这情景让我深有感触。AI需要精确的上下文才能给出好答案,你反反复复地对它说“还没居中呢”,其实是在浪费你自己的生命。如果你从不想去理解代码片段之间是如何协同工作的,那你当初又何必选择软件开发这个行业呢? 这让我想起了乔纳森·布洛(Jonathan Blow)一直在警告的那个观点——我们行业的知识体系,正在从根基处“崩溃”。 布洛的核心忧虑是:现代软件建立在层层叠叠的抽象之上,如今的开发者,尤其是新人,越来越依赖顶层的框架和工具(现在又加上了AI),却对底层原理一窍不通。他们知道“怎样”让东西跑起来,却不知道“为什么”能跑起来。 当整个行业都建立在“知其然,不知所以然”的基础上时,我们创造的系统会变得异常脆弱。就像今天这位小哥,他遇到的只是个CSS问题。但如果未来遇到的一个底层性能瓶颈或安全漏洞呢?当没有人再理解事物的本质时,我们又该如何去修复和创造真正可靠的东西? 这正是“崩溃”的真实写照——它不是什么末日天启,而是我们作为一个整体,正在逐渐丧失对复杂技术的掌控力。 AI的出现加剧了这种割裂: * 对于经验丰富的开发者,AI是如虎添翼的杠杆,能将他们从重复劳动中解放出来,专注于更复杂的架构和创造。 * 对于新手而言,AI却成了一个“黑箱”或“许愿机”,让他们跳过了最关键的学习和试错过程,沦为只会提问的“提示工程师”,根基愈发不稳。 这是一个多么吊诡的世界。一方面技术在飞速进步,另一方面,从业者的平均基本功却在退化。 真心希望那位小哥能看到这篇文章,并明白,真正的成长,源于求知本身。
宝玉
2个月前
不知道你看到图下面这张图的 3 种模式有何感想,我只想说现在你用 AI 写代码,千万不要用第一和第三种模式,只能采用第二种模式! Vibe Coding 的最佳实践仍然是 Agile 的版本迭代模式,而不是瀑布模型那样的一次性完成一个无法运行的半成品,再,像图中第三种先做个不伦不类的东西出来,想优化成真正的产品,是不太现实,即使对于专业程序员来说也会相当有挑战,否则程序员们也不会那么热衷于“推翻重写”! 举个例子,比如你要做一个 ERP 系统,你把完整需求一次性发给 Claude Code,也很专业的要它拆分成模块,再让它按照模块一个个去开发(像图2那样),但这样做出来的东西也基本上是不可控的,做出来的东西基本上无法满足需求的甚至无法运行的。因为无论是 AI 还是人类,都无法掌控这么多模块的协作,更何况还要保障每一个模块自身的稳定性。 那么更好的做法是什么呢? 还是要像图1 中 Agile 的做法那样——每次做一个完整的能稳定运行的版本出来。 距离来说,你要做一个 ERP 系统,分成若干版本来迭代,每一个版本都是可以独立稳定运行的,举例来说(仅供参考): - v0.1: 一个可以运行的 Nextjs/TanStack 程序,有欢迎页面,可以跳转 - v0.1: 实现 users 相关数据库访问功能,在 mysql 中创建 users 表,实现 users 表的读写功能,添加读写功能的测试代码 - v0.2: 实现用户注册的网页,连接 users 相关数据库方法,能写入注册用户信息到数据库 - v0.3: 实现用户登录、注销的网页功能 - v0.4: 实现简单的 dashboard 页面 - v0.5: 实现 products 相关数据库访问功能,写功能代码和测试 - v0.6: 实现 products 在 dashboard 的管理页面,能显示列表 - v0.7: 实现 products 的添加、编辑和删除功能 。。。 这里就不一一列举,核心还是每一个版本功能是完整的,可以独立运行的,测试稳定后再下一个模块。 这样你基本可以保证你做出来的是可以掌控的,而不是一次性做出来一个几乎无法维护的庞大半成品。
宝玉
2个月前
有一句名言:“你不去关心政治,政治就会来关心你”,那么这句话换成 AI 是不是也成立呢? “你不去关心 AI,AI 就会来关心你!” 当然这个类比不是我说的,是 Ilya Sutskever 说的,Ilya 自从离开 OpenAI 后就没怎么公开发言了,这次他的母校多伦多大学邀请,并且授予了他荣誉学位,还是很给面子,去讲了 10 分钟,印象最深刻的就是这句话。 Ilya 对于 AGI 的到来应该是深信不疑的,所以他的发言必然离不开关于 AI 的讨论,Ilya 认为总有一天,AI 将能完成我们能做的所有事情。不只是一部分,而是全部。任何我们能学会的,AI 同样也能做到。 那么 Ilya 凭什么这么认为呢?Ilya 的依据就是,人类的大脑就像是生物电脑,AI 就是数字大脑,所以 AI 就能做同样的是,换句话说就是“AI 终将无所不能”。 他这话也不算危言耸听,因为他没有加上期限:“总有一天,AI 将能完成我们能做的所有事情。不只是一部分,而是全部。任何我能学会的,任何你们在座的各位能学会的,AI 同样也能做到。” 所以也不用担心,我相信如果 Ilya 看到是未来几年,他就不会是这么说了!但即便如此,其实 AI 已经是在实实在在的影响我们,就像政治一样。普通人其实最关心的还是:“AI 到底是什么?AI 到底能做什么不能做什么?” 对于这个问题 Ilya 给出了最好的答案: “我认为,单单通过使用 AI,看看当今最顶尖的 AI 能做什么,你就能得到一种直觉。并且随着 AI 在一年、两年、三年后不断进步,这种直觉会变得更强。我们现在谈论的很多事情,它们都会变得更加真实,不再那么虚无缥缈。说到底,再多的文章和解释,也比不上我们用自己的感官,用自己的双眼所看到的东西。” 这其实也是我最想分享的部分,不要只是听别人说 AI 怎么样怎么样,自己多用一用,多感觉一下,尤其是去体验最顶尖的 AI 能做什么,你就形成直觉,知道 AI 能做什么不能做什么。以后看到 AI 生成的内容就知道是不是靠谱的,不会被媒体上各种标题所影响。 最后用 Ilya 的两句话结尾: “AI 带来的挑战,在某种意义上,是人类有史以来最大的挑战,而克服它也将带来最大的回报。无论你喜不喜欢,你的人生都将在很大程度上受到 AI 的影响。 因此,去关注它,去留意它,然后产生出能量去解决那些即将出现的问题,这将是最重要的事情。” *** 完整文稿 *** 好的,这是根据您提供的 Ilya Sutskever 演讲稿整理出的章节版本,添加了标题和段落,以便于阅读。 *** **开场白:重返母校的感言** 大家好,真的很高兴能来到这里。我想感谢每一位筹备和组织这次活动的人,感谢你们授予我这个荣誉学位。能够获得这个荣誉学位,对我来说真的意义非凡。 整整二十年前的今天,我正是在这个大厅里,从多伦多大学获得了我的学士学位。算上今天这个,这应该是我从多伦多大学获得的第四个学位了。我在这里度过了一段极其美好的时光,总共待了十年。我在这里完成了本科学业,学到了很多东西;也曾在这里担任研究生,那段经历真的非常棒。 那段时光让我能够深入研究任何我感兴趣的领域,并真正成为一名研究者。能和杰弗里·辛顿(Geoffrey Hinton)一起学习,感觉真的太棒了。杰弗里·辛顿当时就在这所大学,这是我一生中最大的幸运之一。我非常感激这所大学。我觉得,我不可能找到比这更好的方式来接受教育、走向成熟、并成为一名科学家了。 而且,在多伦多大学,当我还是个学生的时候,我们就已经在做着全世界最顶尖的 AI 研究。这里的想法最具革命性,这里的工作最激动人心。我感到非常幸运,因为我能够为此做出贡献,即使那时候还只是一个研究生。 **一个核心建议:接受现实,努力向前** 但那已经是很久以前的事了。据我所知,在毕业典礼的演讲上,演讲者理应提供一些睿智的建议。我也会给一点,但只会给一点点,因为这次的演讲会有些不同。 我想分享一种有用的心态,如果一个人能采纳它,会让一切都变得容易得多,那就是:“**接受现实本来的样子,尽量不去后悔过去,并努力改善现状。**” 我之所以这么说,是因为这种心态真的很难养成。人们太容易沉湎于过去某个糟糕的决定或是坏运气,纠结于某些发生过的不公。你真的很容易就会把大量时间花在这样的思绪上。而实际上,一句更好、更有成效的话是:“好吧,事已至此,下一步最好的做法是什么?” 我发现,每当我自己这样做的时候,一切都会顺利得多。但这很难,真的很难,这需要持续不断地与自己的情绪作斗争。所以我才向你们提及此事,或许你们中的一些人会愿意采纳。这是提醒大家要尽力采纳这种心态,当然,也是提醒我自己,这是一场持续的斗争。 **我们正处在 AI 定义的非凡时代** 抛开这个不谈,这次演讲之所以不会是最传统的那种,是因为眼下正在发生一些有点不一样的事情。此时此刻,你们所有人,我们所有人,都生活在一个有史以来最不寻常的时代。这句话可能很多人常说,但我认为这一次是真的。 这一次之所以是真的,是因为 AI。 很明显,据我所知,今天的 AI 已经在很大程度上改变了作为一名学生的意义。这是我的感觉,而且我认为这是事实。但当然,AI 的影响远不止于此。我们所做的工作会发生什么变化?嗯,它正开始以一些未知和不可预测的方式发生着细微的变化。有些工作可能会更早感受到影响,有些工作可能会晚一些。 对于今天的 AI,你可以上推特看看它能做什么,以及人们都在说些什么,你可能会感觉到一点点。你会想,哪些技能是有用的?哪些技能会变得没那么有用?这些问题会开始浮现在你的脑中。因此,可以说,当前层面的挑战是,它将如何影响工作和我们的职业生涯? **未来的 AI:从无所不能到加速一切** 但问题是,AI 带来的真正挑战在于它确实是史无前例且极为深刻的,并且它未来的样子将与今天截然不同。 我们都见过 AI,我们都和电脑说过话,而电脑也回复了我们,这是一件新鲜事。过去电脑可不会这么做,但现在它们会了。你和电脑说话,它能理解你,还能回复你,甚至能用语音回复,还能写一些代码。这挺疯狂的。但它也有很多做不到的事情,而且非常不完善。所以你可以说它在很多方面仍需迎头赶上。 然而,它的现状已经足够有启发性,让你不禁会问自己,会去想象:好吧,在若干年后——有人说是三年,有人说是五年、十年,各种数字被提出来,因为预测未来有点难——但 AI 会慢慢地,但肯定地,或者也许不是那么慢地,持续进步。总有一天,AI 将能完成我们能做的所有事情。不只是一部分,而是全部。任何我能学会的,任何你们在座的各位能学会的,AI 同样也能做到。 我们是怎么知道这点的?我怎么能如此确定呢?原因在于,我们每个人都有一个大脑,而大脑就是一台生物计算机。这就是根本原因。既然我们有一个作为生物计算机的大脑,那么,为什么一台数字计算机,一个“数字大脑”,就不能做同样的事情呢?这就是“AI 终将无所不能”的一句话总结。 于是,你可以开始问自己,将会发生什么?当电脑可以完成我们所有的工作时,将会发生什么?这些都是非常重大的问题,是会带来巨变的问题。当你刚开始思考这些问题时,你会觉得,天哪,这有点太强烈了。但这实际上只是其强烈程度的一部分。因为接下来,我们这个集体会想要用这些 AI 来做什么?我们会用它来做更多的工作,发展经济,搞研发,做 AI 研究,以至于在至少一段时间内,进步的速度会变得极其地快。这些都是如此极端且难以想象的事情。 **直面挑战:你们无法忽视的未来** 我现在正试图把你们稍微拉进来一点,拉到这种由 AI 创造的、极其极端和激进的未来思维空间里。但它同时也非常难以想象,很难去内化它,很难在情感层面上真正地相信它。即便是我自己,也为此感到挣扎。然而,逻辑似乎表明,这很可能会发生。 那么,在这样一个世界里,一个人该怎么做呢?有这样一句话:“你可以不关心政治,但政治每时每刻都在关心你。” 同样的道理,在 AI 身上要应验许多许多倍。 我认为,单单通过使用 AI,看看当今最顶尖的 AI 能做什么,你就能得到一种直觉。并且随着 AI 在一年、两年、三年后不断进步,这种直觉会变得更强。我们现在谈论的很多事情,它们都会变得更加真实,不再那么虚无缥缈。说到底,再多的文章和解释,也比不上我们用自己的感官,用自己的双眼所看到的东西。 特别是对于未来那些非常聪明、超级智能的 AI,将会存在一些非常深刻的问题,比如如何确保它们说的是真心话,而不是在伪装。我确实是在这里,在有限的时间里,将大量信息浓缩了起来。但总的来说,只要去关注 AI 能做什么,而不是忽视它,当时机到来时,那将会产生出克服 AI 即将带来的巨大挑战所必需的能量。 **结语:时代赋予的责任** AI 带来的挑战,在某种意义上,是人类有史以来最大的挑战,而克服它也将带来最大的回报。无论你喜不喜欢,你的人生都将在很大程度上受到 AI 的影响。 因此,去关注它,去留意它,然后产生出能量去解决那些即将出现的问题,这将是最重要的事情。 我就讲到这里。非常感谢大家。谢谢。
宝玉
2个月前
机器人现在能代替人工分拣包裹了,而且进化速度很快,视频是Figures CEO的访谈: 今天我们发布了一段视频,展示了一台机器人在物流场景中的应用。这台机器人完全靠一个端到端的神经网络控制,它只需输入摄像头捕获的画面,就能直接输出相应的操作动作。现在,这套系统已经接近人类的操作速度和准确率。放眼全球,你还能找到谁在做类似的事吗? 在这段视频中,机器人正在进行包裹分类任务,它能区分硬质的纸盒包装和塑料包装包裹,并试图将塑料包装表面弄平整,使条形码能够清晰呈现。这套系统目前正运行在你们自己的物流设施中,对吗? 这里面的挑战是:处理物流中的小型包裹尤其困难。因为每个包裹都是不一样的,每次堆叠在一起的包裹情况也完全不同,这给机器人带来了巨大的挑战。这种场景是没办法通过传统的编码方式解决的。 更有趣的是,这与我们之前发布的视频——关于冲压机作业的视频,形成了鲜明的对比。冲压机面对的是高密度金属,精度要求非常高,速度必须极快,容错率极低,因为生产线停不起;而物流机器人处理的包裹却截然不同,它们需要的是另一种能力:神经网络的泛化能力,以适应每次不同的包裹状况,达到接近人类的作业速度(每个包裹约需3至4秒),同时能找到条形码,将包裹正确翻转,并在很多情况下把塑料包装弄平,确保传送带后续的扫描仪能准确读取信息。 这两种作业的需求差别之大几乎是正交的(orthogonal):一个强调精准度和高速度,另一个则强调泛化和柔性控制。这也让人清晰地看到现代AI智能体在不同场景中的灵活性和潜力。
宝玉
2个月前
Cursor 正式宣布发布 1.0 版本!以下是视频介绍翻译: 软件开发不仅仅是写代码 我们知道,软件工程师的日常工作远不止在代码编辑器里敲代码,还有大量的时间用在审查代码、查找和修复 bug 上。因此,我们特别推出了全新功能——Bugbot: * 它能自动在 GitHub 的 Pull Request 中发现潜在的 bug。 * 一键即可在 Cursor 中快速修复这些问题。 新功能抢先体验:记忆(Memories)功能的 Beta 版本 记忆功能是 Cursor 从你的交互中逐渐学习和积累的知识或代码库规则。未来,我们希望 Cursor 能通过使用习惯越来越聪明,甚至实现团队内知识共享——一名团队成员的工作经验可以帮助其他成员快速成长。 一键安装 MCP,让扩展更简单 看到社区对于 MCP(模型扩展插件)的热情,我们非常兴奋。但我们也意识到安装、设置和发现 MCP 并不简单。因此,我们新增了一键安装功能: * 点一下就能轻松安装任何你喜欢的 MCP 扩展插件。 * 让每个人都能快速享受到 Cursor 丰富的扩展能力。 后台智能体正式上线,整合 Slack 与 Jupyter 支持 在上个版本,我们首次尝试了异步后台智能体(Background Agent),这段时间我们进行了大量优化,今天宣布正式上线: * 后台智能体现在能与 Slack 无缝整合。你只需在 Slack 中标记 Cursor,它便能后台帮你完成代码修改。 * 同时,我们还为研究人员和数据科学家提供了 Jupyter Notebooks 支持,让 Cursor 在数据领域更具实用性和强大功能。 更多优化升级,提升使用体验 我们还带来了众多额外的优化升级,包括: * 并行工具调用:Cursor 现在能同时编辑多个不同位置。 * 更丰富的聊天交互体验:比如 Markdown 支持的 Mermaid 流程图、表格等。 * 更友好的设置和管理后台界面。 这些新功能和改进,已在团队内部获得了积极反馈,我们迫不及待地想让大家也能赶快体验起来!
宝玉
2个月前
金融巨头摩根士丹利开发了一款自家的人工智能工具,帮助将老旧的代码转化为现代语言——而这一点,目前市场上的通用工具仍难以有效解决。 作者:Isabelle Bousquette 摩根士丹利全球技术与运营负责人迈克·皮齐表示,公司的AI工具今年已审阅900万行旧代码,节省了开发人员28万小时。 摩根士丹利将人工智能(AI)应用于企业软件最头疼的问题之一——旧代码的现代化改造。这一点即使科技巨头也尚未彻底解决:如何高效将过时的代码转写为现代编程语言。 今年1月,摩根士丹利基于OpenAI的GPT模型,自主开发并推出了一款名为的工具。这款工具可以将COBOL等过时语言的旧代码翻译成清晰易懂的英文规范(specs),开发人员据此可以更轻松地重写代码。 摩根士丹利全球技术与运营负责人迈克·皮齐(Mike Pizzi)透露,仅今年以来,DevGen AI就审阅了900万行旧代码,累计节省了开发者约28万小时的工作时间。 旧代码,企业的巨大痛点 老旧软件的现代化改造一直是企业领域的一大难题。一些公司运行着几十年前遗留的老旧代码,这些代码不仅会导致安全漏洞,还限制企业快速采用新技术。然而,目前主流的AI代码工具,虽然擅长撰写新的现代代码,但在处理一些过时、冷门或企业定制化语言时,却表现不佳。 皮齐指出,目前市面上的通用工具尚不具备企业级的灵活性。尽管各大科技公司都在努力解决这一问题,但现阶段他们的产品还无法满足企业的独特需求。 为什么摩根士丹利自己动手? “我们发现自己构建工具能提供一些市面上产品还做不到的能力,”皮齐说。虽然未来这些通用工具可能也会进化,但摩根士丹利选择提前行动,抢占先机。 通过在自家的代码库上进行训练,这款工具掌握了许多已经不流行甚至根本未普及的编程语言。摩根士丹利遍布全球的约1.5万名开发人员都能用它完成诸如: • 将旧代码翻译成易懂的英文规范; • 快速定位代码片段,用于监管问询或特定需求; • 完整翻译较小段的旧代码至新代码。 仍需人工辅助的挑战 皮齐强调,目前技术在完整代码转换上仍有成长空间。虽然理论上可以将Perl语言的代码转成Python语言,但它未必能生成高效、充分发挥Python功能的优化代码。因此,开发过程依然需要开发人员的参与。 DevGen AI真正突出的表现,是将旧代码转为清晰明了的英文规范。这种规范清楚解释了代码的功能作用,极大降低了企业对仅少数开发者懂得旧语言的依赖程度。有了这种规范,普通开发者也能更顺畅地进行代码的现代化重写。 AI时代,人才需求不会减少 皮齐指出,未来并不会因此减少软件工程领域的人才需求。相反,随着业务对代码的需求不断增加(尤其是更多AI应用),企业更需要现代化、标准化且架构清晰的技术体系。 他表示:“技术领域永远在持续更新与现代化,而AI的到来使得这一点变得更加关键。”