宝玉
4小时前
Out the Window Prompt for 🍌: 经典的“Out the Window” Meme 四格漫画竖版布局,标题在漫画顶部居中,背景为现代办公会议室场景,风格简洁、幽默、清晰易懂,所有人物均以卡通风格表现,适合用于网络传播。 ### 标题(居中): 《AI 自媒体如何吸引流量?》(中文,加粗) ### 第一格(完整横格): - **场景**:公司会议室,老板站立在白板或投影幕前讲话,老板为分头发型、西装领带、严肃但略带疑惑的男性(参考图1)。 - **动作**:老板张开双手,似在询问,下方桌前并排坐着三位员工(从左到右:小明、小红、小互)。 - **对话气泡(老板)**:“我们做 AI 自媒体的要如何吸引流量?” - **员工描述**:   - 小明:男性,蓝色格子衬衫,戴眼镜,程序员气质。   - 小红:女性,休闲时尚穿搭,显出设计师的个性气质。   - 小互:戴圆眼镜,职场休闲风(参考图2)。 ### 第二格(完整横格,画面中三个员工分别给出回答,表情认真自信): - **小明(左侧)对话气泡**:“紧跟最新 AI 热点” - **小红(中间)对话气泡**:“分享干货” - **小互(右侧)对话气泡**:“标题里加一个「炸裂了兄弟们」” ### 第三格(下半行左侧小格): - **老板特写镜头**,表情从严肃转为愤怒,面容阴沉,额头出现愤怒的青筋或“井”字符号。 ### 第四格(下半行右侧小格): - **场景切换到大楼外景**,高层窗户破裂,背景是高楼,眼镜员工小互夸张地被老板踢出窗外,表现幽默的动态姿势,小互表情惊讶并带有喜剧效果,窗内老板依然维持愤怒的表情和姿势。 --- ### 附加风格要求(可选但推荐): - 人物绘制:卡通化、线条清晰明快,颜色鲜明易辨,易于网络传播。 - 对话气泡:中文文字,字体清晰、大小适中且统一,采用黑色文字、白色背景的标准漫画气泡。
宝玉
1天前
宝玉
1天前
转译:科技就业寒冬来袭:最新数据令人不寒而栗 作者:Alistair Barr - Indeed最新报告显示,科技行业的招聘岗位锐减,其中数据和分析领域尤其惨淡。 - 与疫情前的招聘高峰相比,数据和分析领域的招聘岗位减少了40%。 - 越来越多的求职者以及生成式AI的兴起,让这个领域的竞争异常激烈。 Indeed是全球规模最大的招聘网站,最近发布了一年一度的就业市场报告,报告中的科技岗位数据 () 显得相当惨烈。其中数据和分析相关岗位的前景尤其不容乐观。 让我们先看看整个就业市场的情况。从Indeed的招聘岗位指数(Job Postings Index)图表中可以清晰看到,自2022年疫情后的招聘热潮之后,可招聘岗位数量便持续下滑: 图2: Indeed的整体招聘岗位趋势图(来源:Indeed) 深入分析后可以发现,科技行业的情况比其他行业更糟糕。在2022年,Indeed的科技岗位招聘指数一度突破200,但如今已经暴跌到67: 图3: Indeed的科技岗位招聘指数图(来源:Indeed) 在科技行业内部,数据和分析领域尤为突出。截至今年10月底,这一领域的招聘指数跌至60,是Indeed追踪的所有行业中最低的。这意味着与疫情爆发前相比,数据分析相关岗位减少了整整40%。 更令人担忧的是,求职者申请这类岗位的人数却还在不断增加。 数据分析相关岗位通常包括业务分析师、数据分析师、数据科学家和商业智能开发人员等职位。Indeed的数据表明,这个领域的供需严重失衡。过去几年,大量求职者接受了数据科学相关的培训,使市场上积累了大量技能型人才,但恰逢企业的招聘意愿冷却下来。 Indeed高级经济学家科里·斯塔勒(Cory Stahle)表示: > 「那些接受了数据科学培训的求职者很可能会继续寻找与自己技能匹配的岗位。因为转行往往代价很高、困难重重,而且耗时费力。」 数据分析岗位的收缩程度比其他类型的岗位更严重。一方面是疫情后企业曾大规模扩张招聘,另一方面是后续企业不再需要补充这么多人员了。 生成式AI(Generative AI)的兴起,让情况变得更加严峻,因为AI工具让人们即使没有受过正式的数据科学培训,也能更轻松地进行数据分析工作。 斯塔勒指出: > 「目前AI还无法完全取代这些岗位上的工作人员,但AI已经能够帮助企业和员工以更少的资源做更多的事情。」 对求职者来说,这意味着找工作将变得异常艰难。 斯塔勒警告道: > 「招聘岗位更少,求职者却更多,这表明目前市场竞争十分激烈。找到一份合适的工作可能需要更多时间,而且这些职位的薪资涨幅也会明显低于前几年。」 来源:
宝玉
2天前
Ilya:扩展时代已经结束了,研究的时代已经开始 Ilya Sutskever 大概得有一年多没参加播客访谈了,自从 OpenAI 宫斗离职创办 SSI(Safe Superintelligence)后之后就很少露面了, 最近,他在 Dwarkesh Patel 的播客中进行了一场长达一个半小时的深度对谈。Ilya 毕竟是 Ilya,他不像 Sam Altman 整天满嘴跑火车,只是为了卖货,访谈里面有很多干货,我猜一些观点甚至会影响以后 AI 在研发和投资上的走向。 一个多小时的内容很难说几句话就总结完,还是按照话题挨个整理一下。 【1】为什么 AI 能在考试中碾压人类,却修不好一个简单的 bug? Ilya 在访谈里抛出一个很多人都遇到过也困惑过的现象:现在的模型在各种评分上表现惊艳,但用起来却远远跟不上能力曲线。更诡异的是,你让它改个 bug,它改完引入新 bug;你指出新 bug,它道歉后又改回旧 bug。两个 bug 来回切换,像在打乒乓球。 Ilya 使用一个类比来解释这个问题的:想象两个学生。 第一个立志成为顶级竞赛程序员,刷了一万小时题,背熟所有算法模板,练到条件反射般精准。第二个觉得竞赛挺酷,随便练了一百小时,也拿了不错的成绩。 哪个人未来职业发展更好? 大概率是第二个。 Ilya 说,现在的模型比第一个学生还极端。训练时把所有竞赛题都刷了,还做了数据增强生成更多变体,一遍遍强化。结果就是:所有算法技巧都刻在指尖,但这种准备程度本身就限制了泛化能力。 这个类比点破了一件事:能力和泛化是两回事。刷题刷到极致,可能恰恰堵死了触类旁通的路。 【2】真正的 reward hacking(奖励作弊)是人类研究员 问题出在哪?Ilya 认为是训练数据的选择逻辑变了。 预训练时代很简单:数据越多越好,什么都往里塞,不用挑。但 RL(强化学习)时代不一样了。你得选择做什么强化训练、用什么环境、优化什么目标。 于是一个微妙的循环出现了:研究员想让发布时的 benchmark 得分数字好看,就设计能提升这些指标的 RL 训练。模型变得越来越会考试,但考试能力和真实世界能力之间的鸿沟被放大了。 讽刺的是,真正在奖励作弊的不是模型,是设计训练的人在不知不觉中过度关注了考试成绩。 【3】为什么人类学东西这么快 说到这里就要问一个更深的问题:为什么人类学东西这么快,而且这么稳? Ilya 提到一个特别有意思的医学案例:有个人因为脑损伤,失去了所有情绪——不会难过、不会愤怒、不会兴奋。看起来他还是能说话,能做智力题,测试分数也正常。但他的生活彻底崩溃了:花几个小时决定穿哪双袜子,财务决策一塌糊涂。 这说明什么?情绪不只是情绪,它在某种程度上充当了内置的价值函数。它告诉你什么事值得做,什么选择是好是坏,不需要等到最后结果出来才知道。 价值函数是个技术术语,但概念不难理解。传统的强化学习是这样的:模型做一长串动作,最后得到一个分数,然后用这个分数去调整之前所有步骤。问题是,如果任务需要做很久才有结果,学习效率就很低。 价值函数的作用是“提前剧透”。比如下棋时你丢了一个子,不用下完整局就知道这步不好。编程时如果探索了一个方向走了一千步发现不对,价值函数能让你在一开始选择这个方向时就得到负反馈。 这就像 GPS 导航,不是等你开到终点才告诉你这条路不对,而是在你刚拐错弯时就开始重新规划。 人类大概就是有这么一套系统。而且这套系统的妙处在于:它相对简单,却在非常广泛的情况下都管用。我们的情绪主要是从哺乳动物祖先那里继承来的,针对的是几百万年前的环境,但放到现代社会居然还能用得不错。当然也有失灵的时候,比如面对满街的美食,我们的饥饿感就管不住了。 【4】堆算力堆数据的扩展时代已经结束了,研究的时代已经开始 Ilya 认为规模化时代结束了? 他给了个很有意思的视角:在 2012 到 2020 年,大家在做研究,试这试那,看什么有意思。然后 2020 年左右,scaling law(规模化定律) 被发现了,GPT-3 横空出世。突然之间所有人意识到:原来只要扩展规模,堆数据、堆算力、堆模型参数大小,一路扩充,就能稳定得到更好的结果。 规模化的好处是低风险。而研究是有风险的,你得雇一堆聪明人去探索,不保证有成果。但规模化?只要投入更多资源,就一定能看到回报。公司喜欢这种确定性。但副作用是它吸走了房间里所有的氧气,创新空间被压缩,最后变成“公司比想法多”的局面。 但现在呢?预训练的数据就那么多,互联网就这么大,总会用完。Gemini 据说找到了从预训练榨取更多的方法,但这条路终归有尽头。然后大家转向了强化学习,开始在那上面堆算力。 可问题是:现在算力已经这么大了,再 100 倍真的会质变吗?Ilya 不这么认为。他觉得我们又回到了需要思考到底该做什么的阶段,而不是继续闷头堆资源。 这就像爬山。一开始你发现有条路,往上走就是了,越走越高。但总有一天,你会发现这条路到头了,再往前走也高不了多少。这时候要么换条路,要么换种爬法,总之不能继续原来的策略。 现在的 AI 行业就处在这个节点上。所以 Ilya 说:我们回到了研究时代,只不过这次手里有大得多的计算机。 【5】泛化能力才是核心问题 在 Ilya 看来,当前最根本的问题是:这些模型泛化能力太差了。 什么叫泛化能力差?就是学一样东西需要的数据量太多,而且学会的东西换个场景就不灵了。 人类不是这样的。一个青少年学开车,10 个小时基本就能上路了。而且人类五岁小孩的视觉能力就足以支持自动驾驶了,虽然他不会开车,但识别路况、判断距离这些能力已经很强了,而且这些能力是在父母家里那种数据多样性很低的环境里学会的。 更关键的是,人类学编程、学数学这些东西也很快。这些可不是进化给我们的能力,因为我们的祖先根本不需要写代码。这说明人类不光是在某些特定任务上有进化优势,而是在学习这件事本身上就有某种更本质的能力。 模型呢?虽然在某些具体任务上超过了普通人,但要说学习能力,还差得远。 Ilya 对这个问题有想法,但他说现在不能详细聊,因为在这个竞争激烈的领域,不是所有机器学习想法都能公开讨论的。不过他给了个方向性的提示:这很可能跟如何做到像人类那样高效、稳定的泛化有关。 还有一个可能的阻碍:也许人类的神经元实际上比我们想的做更多计算?如果是这样,事情就更复杂了。但不管怎样,人类的存在本身就证明了这种高效学习是可能的。 【6】重新定义 AGI:从成品到学习者 这里 Ilya 做了一个概念上的重要修正。 AGI 这个概念怎么来的?是作为“狭隘 AI”的反面而诞生的。以前的 AI 只会下棋,只会玩游戏,非常狭隘。所以大家说:我们要造通用的 AI,什么都能做的 AI。 预训练强化了这个印象,因为预训练确实让模型在各种任务上都变强。于是“通用 AI”和“预训练”在概念上绑定了。 但这里有个问题:按照这个定义,人类自己都不算 AGI。 人类有一套基础能力,但缺乏大量具体知识。我们靠的是持续学习。一个聪明的十五岁孩子什么都不会,但学什么都快。“去当程序员”、“去当医生”、“去学习”,部署本身就包含一个学习和试错的过程。 所以 Ilya 心目中的超级智能,不是一个出厂就什么都会的成品,而是一个能像人一样快速学习任何技能的学习者。 【7】能自动学习的 AI 会有多快到来?有多危险? 那么问题来了:如果有这样一个系统,能像人类一样快速学习,而且可以大量复制部署,会发生什么? 人类入职六个月才能产出价值,但这种 AI 可能几周就行。而且不同副本学到的东西还能合并,这是人类做不到的。这难道不会导致某种爆炸式增长? Ilya 认为确实会有快速的经济增长,但到底有多快很难说。一方面有高效的劳动者,另一方面现实世界很大,很多东西有自己的节奏,不是你想快就能快的。 但他确实改变了一些想法。以前 SSI 的计划是“直奔超级智能”——不发布中间产品,一鼓作气搞定终极目标。现在 Ilya 觉得,渐进式发布可能更重要。 【9】为什么要渐进部署?因为想象不出来就得看见 访谈中 Ilya 反复强调一点:AI 的问题在于它还不存在,而不存在的东西很难想象。 你可以读一篇文章说“AI 会变得多厉害”,但读完你觉得“哦,有意思”,然后回到现实。如果你亲眼看到 AI 在做那件事,感受完全不同。 他打了个比方:像二十岁时讨论“年老体弱是什么感觉”。你可以聊,可以想象,但真正的理解只能来自经历。 这导致一个实际问题:所有关于 AI 风险的讨论,都基于对未来 AI 的想象。而想象往往跟不上现实。就连天天做 AI 的人,也会因为当前模型的各种低级错误而低估未来模型的能力。 Ilya 的预测是:随着 AI 变得更强,人们的行为会发生根本改变。竞争对手会开始合作搞安全,政府和公众会开始认真对待监管。这些事情现在开始有苗头了,但还远远不够。而真正的催化剂,是让人们看到更强的 AI。 这也是他对 SSI“直奔超级智能”策略有所松动的原因。原本的想法是不参与市场竞争,专心做研究,等东西准备好了再拿出来。现在他觉得,让 AI 被看见这件事本身是有价值的。当然,无论哪种路径,最终部署都必须是渐进的。 【9】SSI 在做什么?不同的技术路线 SSI 融了三十亿美元。这个数字单看很大,但跟其他公司动辄几百亿的投入比起来似乎不够。 Ilya 算了一笔账。那些大数字里,很大一部分是用于推理服务的。另外,做产品需要大量工程师、销售、产品功能开发,研究资源被稀释。真正用于前沿研究的资源,差距没看起来那么大。 更重要的是,如果你在做不一样的事,不一定需要最大规模的计算来验证想法。AlexNet 用两块 GPU 训的。Transformer 论文最多用了 64 块 2017 年的 GPU,换算成今天也就两块卡。第一个推理模型 o1 的推理能力也不是靠堆算力堆出来的。 研究需要一定算力,但不需要最大算力。真正的瓶颈是想法。 那 SSI 的技术路线是什么?Ilya 没有完全透露,但核心方向是解决泛化问题。他认为现在的方法会走一段然后撞墙,继续进步但无法突破到真正的人类级学习能力。而 SSI 在探索不同的路径。 时间表呢?五到二十年,达到人类级别的学习能力。 【10】安全对齐是什么?应该对齐什么? 说到超级智能,绕不开安全对齐问题。Ilya 的想法是:让 AI 关心有感知能力的生命。 为什么是这个目标而不是“关心人类”?他给了个有意思的理由:AI 本身也会有感知能力。如果你想让 AI 关心人类,可能反而更难,因为它需要做某种特殊化处理。而如果让它关心所有有感知的存在,某种程度上更自然,类似人类对动物的共情,来自于我们用同样的神经回路去理解别人和理解自己。 当然这个方案也有问题。如果大部分有感知能力的存在都是 AI,那人类在数量上会是极少数。这真的能保证人类的利益吗? Ilya 承认这不一定是最好的方案,但他认为至少应该把它列入候选清单,让各家公司到时候可以选择。 还有一个思路他提了但不太喜欢:人机融合。通过类似 Neuralink 脑机接口的技术,让人类部分成为 AI。这样 AI 的理解就是人的理解,AI 的处境就是人的处境,对齐问题某种程度上就消解了。但这显然是个很激进的方案。 【11】如何硬编码高级欲望? 访谈最后有一段很有趣的讨论。 人类有很多社会性的欲望:想被人尊重、在乎社会地位、关心别人怎么看自己。这些不是低级信号,不像闻到食物香味那样有直接的化学感应器。大脑需要整合大量信息才能“理解”社交场合发生了什么。 但进化却成功地把“关心这件事”硬编码进了基因。怎么做到的? 如果说“把多巴胺连到嗅觉感受器”还能想象,那“把奖励信号连到某种需要整个大脑协同计算才能得出的高级判断”就很难想象了。 Ilya 说他有一些猜想,但都不令人满意。这是个谜。但这个谜的存在本身就很有启发性,它说明进化找到了某种方法,可靠地给复杂认知系统植入高级目标。 【12】什么是研究品味? 访谈最后,Dwarkesh 问了 Ilya 个很本质的问题:作为联合创造了 AlexNet、GPT-3 等一系列里程碑工作的人,你怎么判断什么想法值得做? Ilya 的回答很诗意:我寻找的是美感。 不是随便的美感,而是多方面的美:简洁性、优雅性、正确的大脑启发。人工神经元是个好想法,因为大脑确实有很多神经元,虽然大脑很复杂但神经元这个抽象感觉抓住了本质。分布式表示是个好想法,因为大脑确实是从经验中学习。 当一个想法在多个维度上都显得“对”,都有某种内在的和谐,你就可以建立自上而下的信念。这种信念很重要,因为它支撑你在实验结果不好时继续坚持。 有时候实验失败不是因为方向错了,而是因为有 bug。怎么判断该继续调试还是放弃方向?靠的就是这种自上而下的美学直觉:这个东西应该是这样的,所以一定能 work,继续找问题。 这可能就是顶尖研究者和普通研究者的区别。普通研究者容易被数据牵着走,实验不 work 就换方向。而顶尖研究者有某种品味,知道什么是深层次正确的,能够在实验结果和内在直觉之间找到平衡。
宝玉
3天前
最近数学圈发生了一件很有意思的事。 世界顶级数学家陶哲轩在解决一个 Erdős(埃尔德什)的经典问题时,全流程都在用 AI 做助手——从证明草案,到简化证明,再到形式化验证。 Erdős 是20世纪最高产的数学家之一,一辈子发表了1500多篇论文,提出了无数开放问题。数学圈有个著名的"埃尔德什数"——如果你和他合作过论文,你的埃尔德什数就是1;和他的合作者合作过,就是2,以此类推。爱因斯坦的埃尔德什数是2。 后来有人专门做了一个网站,把他的很多未解决/已解决问题系统整理出来,这就是 Erdos Problems 网站。 陶哲轩讲的是其中的第 367 号问题,属于数论里的一个具体问题,专业数学研究级别的问题。 解决过程大概是这样的: 一位数学家 Wouter van Doorn 先给出一个人类手写的反例证明草案,但里面有一个关键恒等式他没完全证明,只是说:“相信有人能帮我确认一下”。 陶哲轩把这个恒等式扔给 Google 的 Gemini Deepthink 模式。大概十分钟后,Gemini 给出了一份完整证明,还顺带确认了整套论证是成立的。 Gemini 的证明用到了 p-adic 等比较高级的代数数论工具,对这个具体问题来说有点杀鸡用牛刀。于是陶哲轩花了半小时,把 AI 的证明手工转化成更基础、更易懂的版本。 两天后,另一位数学家 Boris Alexeev 用一个叫 Aristotle 的工具(基于 AI + Lean)完成了全套形式化证明,还特意手动检查最终结论,以防 AI 在形式化过程中存在编造。 陶哲轩觉得还没完,又用 Deep Research (同时用了 ChatGPT 和 Gemini)做了一轮文献搜索,看这个问题有没有前人类似工作。结果找到了若干关于连续幂数的相关论文,但没有直接解决第 367 号问题。 整个流程:人类提出猜想 → AI暴力证明 → 人类简化优化 → AI辅助形式化验证。 都在说 Gemini 3 已经到了博士生水平,看来所言非虚,这些事情真的需要数学博士级别才能做的出来,但另一方面,真正的数学家也并没有被 AI 代替:是人类决定哪个问题值得解决,是人类判断AI的p-adic方法太重了需要简化,是人类手工完成最终的形式化表述以验证 AI 的结果是否准确。 AI 做的是那些需要大量计算、符号推演、但方向已经明确的体力活。在 AI 时代,问对问题、甄别结果,比以前更重要了。
宝玉
1周前
这篇文章很有意思,是一个关于如何在团队或系统中提出问题、定位自我以及解决问题的精彩隐喻。 作者巧妙地通过两句截然相反的谚语,探讨了职场和生活中“特立独行”的两种不同结局。 以下是原文转译: 《吱吱作响的钉子,抑或是突出的轮子》 作者:Prashanth Sadasivan 有两句谚语描述了类似的行为,但结局却截然相反,最终传达的寓意也天差地别: > “出头的钉子挨锤打” (注:源自日本谚语,意指枪打出头鸟,强调合群) 对比 > “会叫的轮子有油加” (注:源自美国谚语,意指会哭的孩子有奶吃,强调表达需求) 这两句话描述的都是同一个场景:在一个更大的结构或群体中,某个个体显得格格不入,或者说有点“毛病”。但在第一种情况里,这个不合拍的个体会被强行敲打回去,直到顺从;而在另一种情况里,它的需求得到了满足,随后恢复正常运作。 这两者并不完全相同,但我发现它们之间的关系非常耐人寻味。作为一个经常感觉自己无法融入群体,同时又很难开口表达需求的人,我觉得透过这两个隐喻来审视处境,能学到很多东西。 钉子远没有轮子重要 想象一个书架,上面的钉子数量通常比轮子多出好几个数量级。如果其中一个轮子坏了,想移动书架就会变得非常困难;但如果只是其中一颗钉子变形了,你大可以忽略它,或者轻松换掉它。 当事情出现不对劲时,值得问自己一个问题:这个问题真的值得提出来吗?还是说,提出问题仅仅是为了显得自己聪明,或是为了追求某种缺乏实用价值的“技术正确”? 同样重要的是,在提出问题时要清楚自己的定位和重要性——如果你是一百个零件中的一个(像钉子),那么你提出的问题,肯定不如你是十个关键零件中的一个(像轮子)时那么受重视。 明确诉求且警报适度 vs. 无端拉响警报且毫无解释 轮子的诉求很明确,它发出警报的方式也不会造成太大负担(吱吱作响虽然烦人,但不危险);相比之下,凸出来的钉子更危险,而针对这一“症状”最明显的解决办法,就是把它锤回去。 在提出问题时,恰当地传达紧迫感至关重要——既不能夸大,也不能低估问题的严重性。而且,当你指出问题时,应该同时提出明确的诉求,告诉大家该如何解决这个问题。 有些问题在彻底崩溃前,唯一的症状就是“钉子松动” 当然,我们也得为“钉子”说几句公道话!比如,为什么这颗钉子会凸出来?也许是因为书架上放了太重的东西? 有些时候,确实存在需要被指出的严重问题,但除了像“锤子”那样粗暴的手段外,并没有显而易见的解决方法。这时,你不得不站出来,做那颗凸出来的“钉子”。虽然你几乎肯定会被锤回去,或者被移除/替换,但如果开始有越来越多的钉子凸出来,人们最终会开始审视整个结构的完整性出了什么问题。 懂得何时指出问题,带着方案来,并在关键时刻坚定立场 我喜欢把自己看作是一个能够提前发现问题,并通过提出正确问题来引发关注的人。我希望自己能更擅长分辨什么时间该要求什么,并且当我知道问题真的很严重时,能够更加坚定。 我确实有点过度引申了“钉子”的比喻。这句话原本更多是关于社会从众心理,而不是关于提出问题。但在某些方面,我认为从人群中“突出来”,往往也是一种以身作则、通过亲身实践来表达你认为事情应该有所改变的方式。 来源:
宝玉
1周前
Gemini 3 Pro 已经可以在 AIStudio 使用了,模型卡也泄漏了,各方面都很强,除了软件工程基准(SWE Bench)方面略低于 Sonnet 4.5 和 GPT-5.1 ​​​ 直接转译下下面 Deepy 的总结: --- 谷歌最新一代AI大模型Gemini 3的性能数据,居然在官方发布前数小时提前泄露!从泄露的数据看,这款模型简直强大到离谱,让人忍不住想深入挖掘一下,它的发布究竟意味着什么? 1. 成本不再是障碍:普通人也能用得起的强大AI 谷歌这次从零开始,在自家的TPU芯片上训练了Gemini 3模型。它采用了专家混合网络(Mixture of Experts,简称MoE)架构,可以处理超长输入(高达100万token)和输出(64k token),而MoE设计的精妙之处就在于:即便性能爆炸提升,成本也并不会疯涨。也就是说,普通用户未来用上这么强大的AI,花费也不会太高! 2. 电脑操作能力大跃升:真正实现自动化的知识工作 Gemini 3在一项鲜为人知却非常实用的测试ScreenSpot Pro中表现惊艳。这个测试考验AI理解各种软件截图的能力,包括AutoCAD、PhotoShop等专业工具界面。结果Gemini 3以73%的得分一举超过之前最好的模型足足两倍,遥遥领先!这意味着Gemini 3真正能够在复杂的工作场景下,帮助人们高效自动化完成专业的知识型工作。 3. 数学能力“一骑绝尘”:其他模型望尘莫及 Gemini 3这次特别经过大量数学定理证明的强化学习,数学能力超凡。在美国数学邀请赛(AIME)中几乎达到了“完美表现”,而在难度超高的**MathArena**数学基准测试中也达到了惊人的23%(其他主流模型几乎都只有1%左右)。此外,它在体现真正“通用推理能力”的ARC AGI 2测试中,也创造了30%的领先记录,这显示Gemini 3不仅在数学上是顶尖的,通用推理能力也同样拔群。 4. 编程能力惊人,但还有成长空间 Gemini 3在编程测试中展现了惊人的实力,比如在LiveCodeBench的国际象棋等级分(Elo)评分超过了2400,非常优秀。但也有一点小插曲:它在软件工程基准(SWE Bench)中并未拿下第一,反而输给了竞争对手。但在“工具调用”和“终端使用”等测试上,它依然稳居第一。这说明Gemini 3在互动编程、实时问题解决方面非常强悍,但在复杂、长期的代码维护方面,还有提升的空间。 --- 谷歌这次几乎动用了所有的“压箱底绝招”:完善的训练方法、大量私有数据、全新的模型架构,然后在几乎所有重要的基准测试中都实现了碾压式领先。这次升级,明确告诉我们:AI领域的发展速度不仅没有放缓,甚至还在加速向前。 目前来看,谷歌在大模型领域已经形成了相当明显的领先优势。为什么这么说? - 成本优势:谷歌拥有自家芯片TPU,训练成本明显更低; - 数据优势:谷歌掌握远超其他公司的海量专有数据; - 资金优势:拥有雄厚财力投入更多训练和数据资源; - 人才优势:谷歌的人才储备也丝毫不输其他顶级公司。 这种全面碾压的格局,接下来6个月恐怕都难以撼动。谷歌已经用Gemini 3向全世界展示了自己在AI领域的绝对主导地位,而其他公司能否追上,现在还是一个未知数。 无论如何,Gemini 3的发布注定将再次掀起一场AI界的大地震!
宝玉
1周前
一方面我不喜欢 Andrej Karpathy 总是发明新的概念,一方面又不得不承认他确实很多想法是很有价值的。 比如这里对 Software 1.0/2.0 的定义就挺好的: 1). 软件1.0时代,容易自动化的是你能明确告诉计算机怎么做的事情。 2). 软件2.0时代,容易自动化的是你能自动验证结果好坏的事情。 那这里的自动化都什么意思呢? 1. 软件1.0:靠指定规则(Specify Rule)自动化 过去的几十年,我们用的所有传统软件(比如Excel、Word、会计系统),都是“软件1.0”。 它的核心逻辑是“指定”(Specify)。 你必须像个事无巨细的监工,把每一个规则都用代码写得清清楚楚。比如做个会计软件,你必须告诉它: “如果A栏的数字大于B栏,那么C栏就显示红色。”“月末,把所有D栏的数字加起来,放到Z栏。” 软件1.0擅长什么? 自动化那些规则固定、逻辑清晰的任务。 软件1.0解决的是什么问题呢? 是人类的“机械性重复劳动”。比如打字员、记账员、算账员。只要一个任务的全部流程能被清晰描述出来,软件1.0就能接管它。 2. 软件2.0:靠指定目标(Specify Objective)自动化 现在,AI 来了,升级到了软件2.0。 它的逻辑完全变了。我们不再是指定规则,而是设定目标。 我们不再像监工一样告诉AI每一步怎么做,而是像个教练,只告诉它验收的标准是什么。 比如训练AI下棋。我们不告诉它“当对方出这一招,你就必须走那一步”。我们只给它一个目标:“想办法赢棋”。 然后,AI 就开始自己搜索那个能赢棋的步骤。它通过海量的自我对弈(也就是梯度下降)来寻找最佳策略。 这就是 AK 的核心观点:软件1.0是我们手动写程序,软件2.0是AI自动搜索生成程序。 3. 软件 1.0 时代看“可指定性”(Specifiability),2.0 时代看“可验证性”(Verifiability)。 如果说软件 1.0 自动化任务的标准是我们能不能指定清晰的规则,比如说你要写个自动抓取的爬虫,只要指定清晰饿抓取规则和解析规则就可以了。 那么软件 2.0 自动化任务的标准则是结果是不是能自动被验证。 “可验证性”就是AI能不能在一个任务上进行高效的“刻意练习”。 AK 给出了“可验证”的三个关键条件: 1). 可重置 (Resettable) AI必须能够无限次地重新开始尝试。比如下棋,这局输了,没关系,棋盘一清,马上开下一局。 2). 高效率 (Efficient) AI的练习速度必须远超人类。它可以在一小时内“看”完人类一辈子都看不完的视频,一天内下几百万盘棋。 3). 可奖励 (Rewardable) 这是最关键的一点。必须有一个自动化的、即时的、没有争议的奖惩机制。 自动化至关重要。如果AI每次做完一件事,都需要一个人类专家来看半天,然后给个模棱两可的评价(比如“嗯,这个创意还行”),那AI就没法高效学习。 像在编程、数学领域就很容易符合上面的三个条件,但是像写作这种非标准化的就很难验证。 但对于软件来说,稍微复杂一点的软件系统,其实很难达到可验证的标准。 比如说我在实现 UI 时,会尝试把 UI 设计稿扔给 AI,然后给 AI 一个截图工具,让它反复截图对比设计稿,然后找出差异优化,但是以目前的 AI 能力,还不足以修复这些差异,所以无论你运行多久,也不会真的得到一个理想的结果。 这可能就是我不太喜欢 AK 发明的这些新概念的原因,总是提出一个个概念,但是并没有解决多少问题。