1个月前
1个月前
一年之间 AI 做高考数学从 47 分到 145 分!AI 数学能力发生了什么?自从去年极客公园搞了次 AI 做数学题,今年各大媒体又开始让 AI 写作文做数学题了,但是估计明年再搞一年 AI 数学题以后就搞不下去了,因为明年的结果只会是各大模型高考数学都是满分的成绩,再也拉不开区分度了! 可能你会好奇今年各个模型的高考数学成绩如何,我觉得“机器之心”这篇《高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二》结果是挺靠谱的。 (参考图1) > "从总分上来看,Gemini 2.5 Pro 考了 145 分,位列第一,Doubao 和 DeepSeek R1 以 144 分紧随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。" > "从客观题来看,各家大模型几乎拉不开差距,最大分差也只有 3 分,第 6 题图像题更是让这几家多模态大模型「全军覆没」。" (参考图2) 从整个测试过程上来说是客观公正的,我把做错的几题验证了一下,o3 第 6 题错的和截图一样,18 题一样忘记化简,第9题在我这里做对了,也就是误差可能有1分。不管怎么说这个结果也比较符合我的感觉: 1. 现在的推理模型在数学方面已经可以轻松在高考级别的数学题上拿到几乎满分的成绩 2. 国内的推理模型像豆包和DeepSeek在数学方面和国际顶尖模型的差距是很小的 ** 从去年到今年:见证AI数学能力的指数级增长 有必要回顾一下去年大模型的高考数学上的表现(摘录自去年极客公园的测试结果 ): > 大模型解决数学问题的能力明显不足,在所有产品的 2 轮测试中,9 款产品的数学平均分只有 47 分。除了 GPT-4o,豆包和文心 4.0是平均分唯二超过 60 分的,分别是 62.5 分和 61.5 分,剩下的六位大模型考生中则只有百小应能够维持 40 分以上的平均分。 (参考图3) 可能你会好奇,为什么才一年时间,这些大模型怎么就从刚刚及格线,一下子到了接近满分的成绩? 这背后离不开推理模型的功劳,如果你留意一下去年和今年参加测试的模型名单,去年的 6 月的时候还没有推理模型的概念,第一个推理模型 o1 还是 2024 年 9 月才发布的,DeepSeek R1 和豆包深度思考推理模型分别是 2025年的 1 月 20 日 和 3 月 5 日发布的。 *** 那么什么是推理模型?为什么推理模型做数学这么厉害呢? 假如说普通的大语言模型是一位会背书的同学:它看过海量课本,别人一问就能很快背出相似句子,但对于没有背过的数学题,它就只能靠蒙了! 推理模型就像一个正在学习如何解应用题的超级学霸 。这个学霸掌握了两种特别的学习方法:思维链(Chain of Thought) 和强化学习(Reinforcement Learning)。 思维链就像老师要求你“写出解题步骤”一样。这个学霸在遇到一个复杂的数学题时,不会直接猜答案,而是会一步一步地把思考过程写下来,比如“第一步,先算出A和B的总和... 第二步,再用总和除以C...”。每一步都建立在前一步的基础上,逻辑清晰,这样就不容易出错了。像豆包的深度思考模型就是通过这种方式,把一个大问题分解成一连串的小问题来解决,大大提高了准确性。 而强化学习则像一个奖励机制 。如果学霸通过一套“解题步骤”(也就是思维链)最终算对了答案,就会得到一朵小红花作为奖励;如果算错了,就没有奖励。通过成千上万次的练习,模型会不断调整自己的“思考路径”,学习哪些步骤是有效的,哪些是无效的,最终形成一套高效、准确的解题策略。就像你做多了练习题,自然而然就知道哪种方法最快最好一样。正是通过这两种方法的结合,豆包深度思考这样的推理模型才能像一个经验丰富的数学家一样,有条不紊地解决复杂的数学问题。 *** 为什么第 6 题大模型都没做对?难在哪里? 图4 就是第 6 题的截图,主要特点就是有一个坐标图,无法直接用自然语言描述。 现在的大语言模型,尤其是在训练时,还是以文本为主,虽然也支持图片的输入和输出,但是在图片识别的准确性上,还不能特别精确,比如图 6 右下角的坐标图,以现在 AI 的多模态能力,还不足以完整准确的理解这个坐标轴的数值和上面的箭头角度等信息。 并不是因为大模型不会做,而是它输入的信息是不完整的,就会影响到输出的准确性。 随着模型在多模态能力的进步,未来应该就不会是问题了。 *** 未来展望:高考数学将不再是AI的"试金石" 以现在推理模型在数学上的表现,在高考上已经没有什么区分度了,这就是为什么模型的评分标准也一直在升级,比如现在大模型在数学方面的评测基准之一是 FrontierMath,由 70 位数学家原创的 300 道研究级数学题,远超高考数学难度,目前的推理模型还只是突破 了 25% 左右。 ** 最后 1. 不必对于 AI 能力产生不必要的焦虑,AI 数学能力强,并不代表就能取代人类,相反我们可以让 AI 成为学习上的助手 2. 豆包与 DeepSeek 凭一分之差证明国产 AI 和国外顶尖模型的差距越来越小 3. 未来比拼模型能力的,不是光看分数,而是谁能把严谨推理与多模态理解真正融入日常应用场景中,让 AI 的语言能力、推理能力、数学能力能为人类所用,帮助人更好的提升效率。
1个月前
学好基本功,AI才能真正助你一臂之力 作者:Manda Putra 我最近一直在尝试把AI融入到日常工作中。必须承认,在处理像增删改查(CRUD)、数据解析这类琐碎任务时,AI确实是个神器。你只需要下达指令,它就能帮你搞定,极大地解放了生产力。但软件开发远不止于此,我们还需要整合系统、性能优化、技术研究,这些都需要真正的理解力。 今天在咖啡馆工作时,我旁边坐着一位同行。他也在用AI写代码,这很正常,我也用。但让我忍俊不禁的是,他为了解决一个极其基础的问题,竟然在和AI反复“拉扯”。那个问题是什么呢?仅仅是一个CSS元素的居中,或是一个忘记绑定`onClick`点击事件的低级Bug。 我内心的独白是:“简直可笑,花几分钟学一下CSS的Flexbox布局,不比你这样反复试错问AI快得多吗?” 我当然不会说出口,毕竟萍水相逢,我也不想打击一个年轻工程师的热情。但这情景让我深有感触。AI需要精确的上下文才能给出好答案,你反反复复地对它说“还没居中呢”,其实是在浪费你自己的生命。如果你从不想去理解代码片段之间是如何协同工作的,那你当初又何必选择软件开发这个行业呢? 这让我想起了乔纳森·布洛(Jonathan Blow)一直在警告的那个观点——我们行业的知识体系,正在从根基处“崩溃”。 布洛的核心忧虑是:现代软件建立在层层叠叠的抽象之上,如今的开发者,尤其是新人,越来越依赖顶层的框架和工具(现在又加上了AI),却对底层原理一窍不通。他们知道“怎样”让东西跑起来,却不知道“为什么”能跑起来。 当整个行业都建立在“知其然,不知所以然”的基础上时,我们创造的系统会变得异常脆弱。就像今天这位小哥,他遇到的只是个CSS问题。但如果未来遇到的一个底层性能瓶颈或安全漏洞呢?当没有人再理解事物的本质时,我们又该如何去修复和创造真正可靠的东西? 这正是“崩溃”的真实写照——它不是什么末日天启,而是我们作为一个整体,正在逐渐丧失对复杂技术的掌控力。 AI的出现加剧了这种割裂: * 对于经验丰富的开发者,AI是如虎添翼的杠杆,能将他们从重复劳动中解放出来,专注于更复杂的架构和创造。 * 对于新手而言,AI却成了一个“黑箱”或“许愿机”,让他们跳过了最关键的学习和试错过程,沦为只会提问的“提示工程师”,根基愈发不稳。 这是一个多么吊诡的世界。一方面技术在飞速进步,另一方面,从业者的平均基本功却在退化。 真心希望那位小哥能看到这篇文章,并明白,真正的成长,源于求知本身。
1个月前
不知道你看到图下面这张图的 3 种模式有何感想,我只想说现在你用 AI 写代码,千万不要用第一和第三种模式,只能采用第二种模式! Vibe Coding 的最佳实践仍然是 Agile 的版本迭代模式,而不是瀑布模型那样的一次性完成一个无法运行的半成品,再,像图中第三种先做个不伦不类的东西出来,想优化成真正的产品,是不太现实,即使对于专业程序员来说也会相当有挑战,否则程序员们也不会那么热衷于“推翻重写”! 举个例子,比如你要做一个 ERP 系统,你把完整需求一次性发给 Claude Code,也很专业的要它拆分成模块,再让它按照模块一个个去开发(像图2那样),但这样做出来的东西也基本上是不可控的,做出来的东西基本上无法满足需求的甚至无法运行的。因为无论是 AI 还是人类,都无法掌控这么多模块的协作,更何况还要保障每一个模块自身的稳定性。 那么更好的做法是什么呢? 还是要像图1 中 Agile 的做法那样——每次做一个完整的能稳定运行的版本出来。 距离来说,你要做一个 ERP 系统,分成若干版本来迭代,每一个版本都是可以独立稳定运行的,举例来说(仅供参考): - v0.1: 一个可以运行的 Nextjs/TanStack 程序,有欢迎页面,可以跳转 - v0.1: 实现 users 相关数据库访问功能,在 mysql 中创建 users 表,实现 users 表的读写功能,添加读写功能的测试代码 - v0.2: 实现用户注册的网页,连接 users 相关数据库方法,能写入注册用户信息到数据库 - v0.3: 实现用户登录、注销的网页功能 - v0.4: 实现简单的 dashboard 页面 - v0.5: 实现 products 相关数据库访问功能,写功能代码和测试 - v0.6: 实现 products 在 dashboard 的管理页面,能显示列表 - v0.7: 实现 products 的添加、编辑和删除功能 。。。 这里就不一一列举,核心还是每一个版本功能是完整的,可以独立运行的,测试稳定后再下一个模块。 这样你基本可以保证你做出来的是可以掌控的,而不是一次性做出来一个几乎无法维护的庞大半成品。
1个月前
有一句名言:“你不去关心政治,政治就会来关心你”,那么这句话换成 AI 是不是也成立呢? “你不去关心 AI,AI 就会来关心你!” 当然这个类比不是我说的,是 Ilya Sutskever 说的,Ilya 自从离开 OpenAI 后就没怎么公开发言了,这次他的母校多伦多大学邀请,并且授予了他荣誉学位,还是很给面子,去讲了 10 分钟,印象最深刻的就是这句话。 Ilya 对于 AGI 的到来应该是深信不疑的,所以他的发言必然离不开关于 AI 的讨论,Ilya 认为总有一天,AI 将能完成我们能做的所有事情。不只是一部分,而是全部。任何我们能学会的,AI 同样也能做到。 那么 Ilya 凭什么这么认为呢?Ilya 的依据就是,人类的大脑就像是生物电脑,AI 就是数字大脑,所以 AI 就能做同样的是,换句话说就是“AI 终将无所不能”。 他这话也不算危言耸听,因为他没有加上期限:“总有一天,AI 将能完成我们能做的所有事情。不只是一部分,而是全部。任何我能学会的,任何你们在座的各位能学会的,AI 同样也能做到。” 所以也不用担心,我相信如果 Ilya 看到是未来几年,他就不会是这么说了!但即便如此,其实 AI 已经是在实实在在的影响我们,就像政治一样。普通人其实最关心的还是:“AI 到底是什么?AI 到底能做什么不能做什么?” 对于这个问题 Ilya 给出了最好的答案: “我认为,单单通过使用 AI,看看当今最顶尖的 AI 能做什么,你就能得到一种直觉。并且随着 AI 在一年、两年、三年后不断进步,这种直觉会变得更强。我们现在谈论的很多事情,它们都会变得更加真实,不再那么虚无缥缈。说到底,再多的文章和解释,也比不上我们用自己的感官,用自己的双眼所看到的东西。” 这其实也是我最想分享的部分,不要只是听别人说 AI 怎么样怎么样,自己多用一用,多感觉一下,尤其是去体验最顶尖的 AI 能做什么,你就形成直觉,知道 AI 能做什么不能做什么。以后看到 AI 生成的内容就知道是不是靠谱的,不会被媒体上各种标题所影响。 最后用 Ilya 的两句话结尾: “AI 带来的挑战,在某种意义上,是人类有史以来最大的挑战,而克服它也将带来最大的回报。无论你喜不喜欢,你的人生都将在很大程度上受到 AI 的影响。 因此,去关注它,去留意它,然后产生出能量去解决那些即将出现的问题,这将是最重要的事情。” *** 完整文稿 *** 好的,这是根据您提供的 Ilya Sutskever 演讲稿整理出的章节版本,添加了标题和段落,以便于阅读。 *** **开场白:重返母校的感言** 大家好,真的很高兴能来到这里。我想感谢每一位筹备和组织这次活动的人,感谢你们授予我这个荣誉学位。能够获得这个荣誉学位,对我来说真的意义非凡。 整整二十年前的今天,我正是在这个大厅里,从多伦多大学获得了我的学士学位。算上今天这个,这应该是我从多伦多大学获得的第四个学位了。我在这里度过了一段极其美好的时光,总共待了十年。我在这里完成了本科学业,学到了很多东西;也曾在这里担任研究生,那段经历真的非常棒。 那段时光让我能够深入研究任何我感兴趣的领域,并真正成为一名研究者。能和杰弗里·辛顿(Geoffrey Hinton)一起学习,感觉真的太棒了。杰弗里·辛顿当时就在这所大学,这是我一生中最大的幸运之一。我非常感激这所大学。我觉得,我不可能找到比这更好的方式来接受教育、走向成熟、并成为一名科学家了。 而且,在多伦多大学,当我还是个学生的时候,我们就已经在做着全世界最顶尖的 AI 研究。这里的想法最具革命性,这里的工作最激动人心。我感到非常幸运,因为我能够为此做出贡献,即使那时候还只是一个研究生。 **一个核心建议:接受现实,努力向前** 但那已经是很久以前的事了。据我所知,在毕业典礼的演讲上,演讲者理应提供一些睿智的建议。我也会给一点,但只会给一点点,因为这次的演讲会有些不同。 我想分享一种有用的心态,如果一个人能采纳它,会让一切都变得容易得多,那就是:“**接受现实本来的样子,尽量不去后悔过去,并努力改善现状。**” 我之所以这么说,是因为这种心态真的很难养成。人们太容易沉湎于过去某个糟糕的决定或是坏运气,纠结于某些发生过的不公。你真的很容易就会把大量时间花在这样的思绪上。而实际上,一句更好、更有成效的话是:“好吧,事已至此,下一步最好的做法是什么?” 我发现,每当我自己这样做的时候,一切都会顺利得多。但这很难,真的很难,这需要持续不断地与自己的情绪作斗争。所以我才向你们提及此事,或许你们中的一些人会愿意采纳。这是提醒大家要尽力采纳这种心态,当然,也是提醒我自己,这是一场持续的斗争。 **我们正处在 AI 定义的非凡时代** 抛开这个不谈,这次演讲之所以不会是最传统的那种,是因为眼下正在发生一些有点不一样的事情。此时此刻,你们所有人,我们所有人,都生活在一个有史以来最不寻常的时代。这句话可能很多人常说,但我认为这一次是真的。 这一次之所以是真的,是因为 AI。 很明显,据我所知,今天的 AI 已经在很大程度上改变了作为一名学生的意义。这是我的感觉,而且我认为这是事实。但当然,AI 的影响远不止于此。我们所做的工作会发生什么变化?嗯,它正开始以一些未知和不可预测的方式发生着细微的变化。有些工作可能会更早感受到影响,有些工作可能会晚一些。 对于今天的 AI,你可以上推特看看它能做什么,以及人们都在说些什么,你可能会感觉到一点点。你会想,哪些技能是有用的?哪些技能会变得没那么有用?这些问题会开始浮现在你的脑中。因此,可以说,当前层面的挑战是,它将如何影响工作和我们的职业生涯? **未来的 AI:从无所不能到加速一切** 但问题是,AI 带来的真正挑战在于它确实是史无前例且极为深刻的,并且它未来的样子将与今天截然不同。 我们都见过 AI,我们都和电脑说过话,而电脑也回复了我们,这是一件新鲜事。过去电脑可不会这么做,但现在它们会了。你和电脑说话,它能理解你,还能回复你,甚至能用语音回复,还能写一些代码。这挺疯狂的。但它也有很多做不到的事情,而且非常不完善。所以你可以说它在很多方面仍需迎头赶上。 然而,它的现状已经足够有启发性,让你不禁会问自己,会去想象:好吧,在若干年后——有人说是三年,有人说是五年、十年,各种数字被提出来,因为预测未来有点难——但 AI 会慢慢地,但肯定地,或者也许不是那么慢地,持续进步。总有一天,AI 将能完成我们能做的所有事情。不只是一部分,而是全部。任何我能学会的,任何你们在座的各位能学会的,AI 同样也能做到。 我们是怎么知道这点的?我怎么能如此确定呢?原因在于,我们每个人都有一个大脑,而大脑就是一台生物计算机。这就是根本原因。既然我们有一个作为生物计算机的大脑,那么,为什么一台数字计算机,一个“数字大脑”,就不能做同样的事情呢?这就是“AI 终将无所不能”的一句话总结。 于是,你可以开始问自己,将会发生什么?当电脑可以完成我们所有的工作时,将会发生什么?这些都是非常重大的问题,是会带来巨变的问题。当你刚开始思考这些问题时,你会觉得,天哪,这有点太强烈了。但这实际上只是其强烈程度的一部分。因为接下来,我们这个集体会想要用这些 AI 来做什么?我们会用它来做更多的工作,发展经济,搞研发,做 AI 研究,以至于在至少一段时间内,进步的速度会变得极其地快。这些都是如此极端且难以想象的事情。 **直面挑战:你们无法忽视的未来** 我现在正试图把你们稍微拉进来一点,拉到这种由 AI 创造的、极其极端和激进的未来思维空间里。但它同时也非常难以想象,很难去内化它,很难在情感层面上真正地相信它。即便是我自己,也为此感到挣扎。然而,逻辑似乎表明,这很可能会发生。 那么,在这样一个世界里,一个人该怎么做呢?有这样一句话:“你可以不关心政治,但政治每时每刻都在关心你。” 同样的道理,在 AI 身上要应验许多许多倍。 我认为,单单通过使用 AI,看看当今最顶尖的 AI 能做什么,你就能得到一种直觉。并且随着 AI 在一年、两年、三年后不断进步,这种直觉会变得更强。我们现在谈论的很多事情,它们都会变得更加真实,不再那么虚无缥缈。说到底,再多的文章和解释,也比不上我们用自己的感官,用自己的双眼所看到的东西。 特别是对于未来那些非常聪明、超级智能的 AI,将会存在一些非常深刻的问题,比如如何确保它们说的是真心话,而不是在伪装。我确实是在这里,在有限的时间里,将大量信息浓缩了起来。但总的来说,只要去关注 AI 能做什么,而不是忽视它,当时机到来时,那将会产生出克服 AI 即将带来的巨大挑战所必需的能量。 **结语:时代赋予的责任** AI 带来的挑战,在某种意义上,是人类有史以来最大的挑战,而克服它也将带来最大的回报。无论你喜不喜欢,你的人生都将在很大程度上受到 AI 的影响。 因此,去关注它,去留意它,然后产生出能量去解决那些即将出现的问题,这将是最重要的事情。 我就讲到这里。非常感谢大家。谢谢。
1个月前
1个月前
机器人现在能代替人工分拣包裹了,而且进化速度很快,视频是Figures CEO的访谈: 今天我们发布了一段视频,展示了一台机器人在物流场景中的应用。这台机器人完全靠一个端到端的神经网络控制,它只需输入摄像头捕获的画面,就能直接输出相应的操作动作。现在,这套系统已经接近人类的操作速度和准确率。放眼全球,你还能找到谁在做类似的事吗? 在这段视频中,机器人正在进行包裹分类任务,它能区分硬质的纸盒包装和塑料包装包裹,并试图将塑料包装表面弄平整,使条形码能够清晰呈现。这套系统目前正运行在你们自己的物流设施中,对吗? 这里面的挑战是:处理物流中的小型包裹尤其困难。因为每个包裹都是不一样的,每次堆叠在一起的包裹情况也完全不同,这给机器人带来了巨大的挑战。这种场景是没办法通过传统的编码方式解决的。 更有趣的是,这与我们之前发布的视频——关于冲压机作业的视频,形成了鲜明的对比。冲压机面对的是高密度金属,精度要求非常高,速度必须极快,容错率极低,因为生产线停不起;而物流机器人处理的包裹却截然不同,它们需要的是另一种能力:神经网络的泛化能力,以适应每次不同的包裹状况,达到接近人类的作业速度(每个包裹约需3至4秒),同时能找到条形码,将包裹正确翻转,并在很多情况下把塑料包装弄平,确保传送带后续的扫描仪能准确读取信息。 这两种作业的需求差别之大几乎是正交的(orthogonal):一个强调精准度和高速度,另一个则强调泛化和柔性控制。这也让人清晰地看到现代AI智能体在不同场景中的灵活性和潜力。
1个月前
开个 Thread 来整理一些我使用 CluadeCode 的经验和心得,也欢迎留言分享。去年起我是 Cursor 的重度用户,最近一个月,我用 Cursor 越来越少了,开发方式也发生了变化,现在大部分时候都是:ClaudeCode 先做,做完了我去 IDE 去审查修改,所以不再需要 Cursor 的绝大部分功能,反而由于 Cursor 频繁更新,让我用 VSCode + GitHub Copilot 更习惯顺手一些。 ClaudeCode 区别于其他同类 AI Coding Agent,我觉得强大的地方在于几点: 1. 对指令的理解很好 能很好的理解你要做什么 2. 能合理的规划任务 一个任务它会先规划再执行,复杂一点还会创建一个 TODO List,挨个执行,虽然这一步对于现在的 Agent 不稀奇,但它每次能基于自己的规划的到一个不错的结果,这才是厉害的地方 3. 对工具的运用,非常强 ClaudeCode 内置了 15 种工具(可能会变化),有系统命令行工具、文件操作工具、还有网络浏览检索工具。 它最擅长的就是 Grep 命令去搜索你的代码库,反复调整搜索正则的正则表达式去找代码,分析找到的代码,然后定位到正确的位置。 惭愧的说,我至今都不会用 grep,但是 claudecode 用 grep 检索代码的效率,可能超过了任何人类能达到的水平。 最绝的是,一个十几兆的混淆过的 js 代码,它都能毫不费力的找出来关键的代码,拼凑还原成原始编译前的代码。 如果说十几兆的混淆后的代码都能分析,那么祖传的几十万行的屎山代码它应该也是能应对的。 现在看来,对于代码库的检索,RAG 都是浮云,grep 才是王道。 4. 执行时间很长 现在 AI Agent 一个很大的毛病就是执行几次就结束了,结果 Token 也消耗了但啥屁事都没干成,OpenAI 的 Codex Cloud 就是个反面典型(codex-cli 好一点,也没好到哪去),像开发任务,有很多任务就是需要反复大量操作的,ClaudeCode 就是大力出奇迹,一个任务十来分钟是常态,更长时间也有,所以大部分时候能交付一个不错的结果。 这可能也是 ClaudeCode 比其他家的一个主要优势所在,毕竟 Cursor 这些是没法跟 Anthropic 比烧 Tokens 的。ClaudeCode 最开始就是 Anthropic 家的内部工具,一开始他们就没考虑过要省着点用 Tokens,没想到歪打正着大力出奇迹,效果最好。 大力出奇迹是 ClaudeCode 的成功关键,但另一个角度也是它还不流行的原因,因为你自己按量买 Token 是用不起的,一天能烧几百刀都可以,还是得配合 Claude Max 订阅包月使用,即使这样,我也经常到额度限制,要等 5 小时刷新。 5. 全程人工干预很少 ClaudeCode 虽然默认也是会确认工具使用操作,但是它有一个 --dangerously-skip-permissions 参数,虽然原则上只能是 Docker 上运行,打开后就全程放飞自我了,你啥都不用管,就等着就好了,喝杯咖啡,刷刷社交媒体,回头一看任务都好了,真正的无人值守 Vibe Coding。 当然一定要配合 Git 做好版本管理,并且对结果要审查,否则会可能出问题的。我用 --dangerously-skip-permissions 模式有一段时间了,它不会去恶意操作系统,所以目前还没出过问题。 (未完待续)🧵
1个月前
Cursor 正式宣布发布 1.0 版本!以下是视频介绍翻译: 软件开发不仅仅是写代码 我们知道,软件工程师的日常工作远不止在代码编辑器里敲代码,还有大量的时间用在审查代码、查找和修复 bug 上。因此,我们特别推出了全新功能——Bugbot: * 它能自动在 GitHub 的 Pull Request 中发现潜在的 bug。 * 一键即可在 Cursor 中快速修复这些问题。 新功能抢先体验:记忆(Memories)功能的 Beta 版本 记忆功能是 Cursor 从你的交互中逐渐学习和积累的知识或代码库规则。未来,我们希望 Cursor 能通过使用习惯越来越聪明,甚至实现团队内知识共享——一名团队成员的工作经验可以帮助其他成员快速成长。 一键安装 MCP,让扩展更简单 看到社区对于 MCP(模型扩展插件)的热情,我们非常兴奋。但我们也意识到安装、设置和发现 MCP 并不简单。因此,我们新增了一键安装功能: * 点一下就能轻松安装任何你喜欢的 MCP 扩展插件。 * 让每个人都能快速享受到 Cursor 丰富的扩展能力。 后台智能体正式上线,整合 Slack 与 Jupyter 支持 在上个版本,我们首次尝试了异步后台智能体(Background Agent),这段时间我们进行了大量优化,今天宣布正式上线: * 后台智能体现在能与 Slack 无缝整合。你只需在 Slack 中标记 Cursor,它便能后台帮你完成代码修改。 * 同时,我们还为研究人员和数据科学家提供了 Jupyter Notebooks 支持,让 Cursor 在数据领域更具实用性和强大功能。 更多优化升级,提升使用体验 我们还带来了众多额外的优化升级,包括: * 并行工具调用:Cursor 现在能同时编辑多个不同位置。 * 更丰富的聊天交互体验:比如 Markdown 支持的 Mermaid 流程图、表格等。 * 更友好的设置和管理后台界面。 这些新功能和改进,已在团队内部获得了积极反馈,我们迫不及待地想让大家也能赶快体验起来!
1个月前
金融巨头摩根士丹利开发了一款自家的人工智能工具,帮助将老旧的代码转化为现代语言——而这一点,目前市场上的通用工具仍难以有效解决。 作者:Isabelle Bousquette 摩根士丹利全球技术与运营负责人迈克·皮齐表示,公司的AI工具今年已审阅900万行旧代码,节省了开发人员28万小时。 摩根士丹利将人工智能(AI)应用于企业软件最头疼的问题之一——旧代码的现代化改造。这一点即使科技巨头也尚未彻底解决:如何高效将过时的代码转写为现代编程语言。 今年1月,摩根士丹利基于OpenAI的GPT模型,自主开发并推出了一款名为的工具。这款工具可以将COBOL等过时语言的旧代码翻译成清晰易懂的英文规范(specs),开发人员据此可以更轻松地重写代码。 摩根士丹利全球技术与运营负责人迈克·皮齐(Mike Pizzi)透露,仅今年以来,DevGen AI就审阅了900万行旧代码,累计节省了开发者约28万小时的工作时间。 旧代码,企业的巨大痛点 老旧软件的现代化改造一直是企业领域的一大难题。一些公司运行着几十年前遗留的老旧代码,这些代码不仅会导致安全漏洞,还限制企业快速采用新技术。然而,目前主流的AI代码工具,虽然擅长撰写新的现代代码,但在处理一些过时、冷门或企业定制化语言时,却表现不佳。 皮齐指出,目前市面上的通用工具尚不具备企业级的灵活性。尽管各大科技公司都在努力解决这一问题,但现阶段他们的产品还无法满足企业的独特需求。 为什么摩根士丹利自己动手? “我们发现自己构建工具能提供一些市面上产品还做不到的能力,”皮齐说。虽然未来这些通用工具可能也会进化,但摩根士丹利选择提前行动,抢占先机。 通过在自家的代码库上进行训练,这款工具掌握了许多已经不流行甚至根本未普及的编程语言。摩根士丹利遍布全球的约1.5万名开发人员都能用它完成诸如: • 将旧代码翻译成易懂的英文规范; • 快速定位代码片段,用于监管问询或特定需求; • 完整翻译较小段的旧代码至新代码。 仍需人工辅助的挑战 皮齐强调,目前技术在完整代码转换上仍有成长空间。虽然理论上可以将Perl语言的代码转成Python语言,但它未必能生成高效、充分发挥Python功能的优化代码。因此,开发过程依然需要开发人员的参与。 DevGen AI真正突出的表现,是将旧代码转为清晰明了的英文规范。这种规范清楚解释了代码的功能作用,极大降低了企业对仅少数开发者懂得旧语言的依赖程度。有了这种规范,普通开发者也能更顺畅地进行代码的现代化重写。 AI时代,人才需求不会减少 皮齐指出,未来并不会因此减少软件工程领域的人才需求。相反,随着业务对代码的需求不断增加(尤其是更多AI应用),企业更需要现代化、标准化且架构清晰的技术体系。 他表示:“技术领域永远在持续更新与现代化,而AI的到来使得这一点变得更加关键。”
1个月前
转译:在无人阅读时坚持发表文章,在默默无闻中蓬勃成长 作者:Jeet Mehta 通往创意大师的道路,总是要先经历数年沉寂。但请你,依然去发布。 --- 很多事情的成果,总是要等很久。 即便是最成功的创作者,也都经历过多年甚至数十年的默默无闻。他们做的视频可能只有4个观看量,发送的邮件订阅人数不过3个,播客听众只有10个人,博客的读者只有6位,歌曲下载只有4次。除了父母和伴侣外,可能根本无人问津。有时候,甚至连家人也不关注。 如果你纯粹只是为了那遥远的梦想——数百万人的关注、喜爱与赞扬,那么你的坚持注定不会长久。每个领域都是如此,要经历数年练习、重复和无数次“失败的演出”,才能迎来第一次成功。最糟糕的是,有的艺术家一生都没有得到他们应得的赞赏。比如梵高,一位伟大的艺术家,却在贫穷潦倒和精神病院中死去。他的所有名望,都是在他去世后才降临。 --- 那么,你要如何坚持? 当你知道没有人看、没有人听的时候,你怎样能够一次又一次按下“发布”按钮? 我也不知道,我自己也还在寻找答案。 但我发现了一些有用的思维方式和名言,想在这里与你分享。 --- 1 — 做你热爱的事情,有时候世界也会认同 这段 [Shaan Puri 和 Mike Posner 的访谈](youtube/watch?v=sBATMZSVPOw&t=1171s&ab_channel=MyFirstMillion) 非常精彩。Mike 谈到了他表面上突然成名、迅速跌落谷底以及之后慢慢重新站起的经历。 Mike 从6岁开始创作音乐,写了整整10年之后,他的一首歌《Cooler Than Me》突然大火。此前,他所有的歌曲只有他妈妈听过。《Cooler Than Me》冲到了公告牌排行榜第6名,当时他还在杜克大学读书。 但随后7年,他不停地追逐成功,每首新歌的反响却越来越差。这种追逐让他陷入了抑郁,走向了毒品,甚至差点死于蛇咬。他后来步行穿越了美国,还登上了珠穆朗玛峰。 最终,他找到了更健康的心态(并且创作了更多受欢迎的歌曲): > 去做你喜欢的事,有时候世界也会认同。 Mike 不再追逐所谓的热门歌曲,他只创作自己真正喜欢的音乐: * 自己觉得好的音乐。 * 自己愿意听的音乐。 * 对自己来说已经成功的音乐。 有时候,世界会和他产生共鸣。 --- 2 — 把你自己推出来 和 Mike Posner 的观点类似:与其一直试图猜测观众喜欢什么,不如去创造你自己喜欢的东西。 这样,即便目前根本没有观众,你也更容易保持动力,更容易度过平台期,享受整个创作过程。最终,你还会创作出更好的作品。 最棒的是,这种方式会吸引与你志趣相投的人——真正喜欢你所创作内容的人。 > 你的观众,就是另一个你自己,被推向世界。 --- 3 — 建立你的“追剧银行” 与其为没人看你的作品而沮丧,不如把这些作品看成是对你未来的投资——投资你的追剧银行。 什么是追剧银行? 它就是你所有创作的内容集合。未来的粉丝们会想去翻阅你的旧作,追寻你的成长轨迹。也许你现在根本没有观众,但将来肯定会有。当你真正拥有粉丝后,他们会回头观看你以前所有的作品。 这也是为什么现在拥有百万粉丝的 YouTuber,最初发布的视频后来都有成百上千的点击量。那些视频刚发布时根本无人观看,却在他们成名之后,被最忠实的粉丝重新挖掘出来。 --- 所以,如果你和我一样,正身处默默无闻之中,请记住: 继续坚持下去吧。
1个月前
1个月前
转译:AI时代:判断力为何比技术更重要? 布莱恩·伊诺(Brian Eno)如何预见AI时代的核心竞争力?当技术障碍消失,判断力成为真正的关键差异。 1995 年,音乐家兼制作人布莱恩·伊诺(Brian Eno)对计算机音序器做出了一个深刻的观察。这一观察在如今AI时代,意义变得更加突出: > “计算机音序器最大的优点,就是把技术问题转变为了判断问题。通过 Cubase 或 Photoshop,每个人都可以做出任何东西,你做的音乐可以听起来和电台播放的一模一样,你做的图片也可以看起来和杂志上的一样漂亮。所以问题不再是你能不能做到,因为只要坐在电脑前努力几天,谁都能做到。真正的问题是:**在你能够做的所有事情里,你会选择做什么?**” AI工具与音乐制作的相似之处 布莱恩·伊诺的洞察精准地描述了当前AI工具带来的变化。正如计算机音序器让音乐创作变得大众化,AI正在让更多领域的大众拥有创造和工作的机会,包括: * 文章写作与内容创作 * 图片生成与设计 * 代码开发 * 数据分析 * 问题解决能力 曾经横亘在业余人士和专业人士之间的技术壁垒正在迅速消失。只要有AI工具的帮助,每个人都能做出表面上媲美专业人士的作品。 现在最重要的差异:判断力 正如伊诺预见的那样,如今真正区分人与人的不再是技术技能,而是判断力。当所有人都能生成内容、编写代码或设计作品时,真正有价值的是: 1. 明确方向:知道什么才是值得创造的。 2. 精准决策:在无数种可能中选择正确的途径。 3. 质量评估:能辨别什么才是真正出色的成果。 4. 理解情境:将正确的方案运用到具体的问题场景中。 AI时代工作的未来趋势 随着AI不断发展,越来越多的职业将从技术执行转变为战略判断。未来最具价值的人才将是那些能够: * 提出正确的问题 * 准确定义问题边界 * 做出明智决策 * 为AI工具提供明确方向的人 结论 布莱恩·伊诺近三十年前的观察,已然成为我们在AI时代蓬勃发展的指南。当技术障碍持续降低,最重要的问题不再是“你是否能够做到”,而是“你应该做什么,以及为什么要这样做”。在未来社会,拥有良好的判断力,将成为你最宝贵的资本。