宝玉
3个月前
这篇文章很有意思,是一个关于如何在团队或系统中提出问题、定位自我以及解决问题的精彩隐喻。 作者巧妙地通过两句截然相反的谚语,探讨了职场和生活中“特立独行”的两种不同结局。 以下是原文转译: 《吱吱作响的钉子,抑或是突出的轮子》 作者:Prashanth Sadasivan 有两句谚语描述了类似的行为,但结局却截然相反,最终传达的寓意也天差地别: > “出头的钉子挨锤打” (注:源自日本谚语,意指枪打出头鸟,强调合群) 对比 > “会叫的轮子有油加” (注:源自美国谚语,意指会哭的孩子有奶吃,强调表达需求) 这两句话描述的都是同一个场景:在一个更大的结构或群体中,某个个体显得格格不入,或者说有点“毛病”。但在第一种情况里,这个不合拍的个体会被强行敲打回去,直到顺从;而在另一种情况里,它的需求得到了满足,随后恢复正常运作。 这两者并不完全相同,但我发现它们之间的关系非常耐人寻味。作为一个经常感觉自己无法融入群体,同时又很难开口表达需求的人,我觉得透过这两个隐喻来审视处境,能学到很多东西。 钉子远没有轮子重要 想象一个书架,上面的钉子数量通常比轮子多出好几个数量级。如果其中一个轮子坏了,想移动书架就会变得非常困难;但如果只是其中一颗钉子变形了,你大可以忽略它,或者轻松换掉它。 当事情出现不对劲时,值得问自己一个问题:这个问题真的值得提出来吗?还是说,提出问题仅仅是为了显得自己聪明,或是为了追求某种缺乏实用价值的“技术正确”? 同样重要的是,在提出问题时要清楚自己的定位和重要性——如果你是一百个零件中的一个(像钉子),那么你提出的问题,肯定不如你是十个关键零件中的一个(像轮子)时那么受重视。 明确诉求且警报适度 vs. 无端拉响警报且毫无解释 轮子的诉求很明确,它发出警报的方式也不会造成太大负担(吱吱作响虽然烦人,但不危险);相比之下,凸出来的钉子更危险,而针对这一“症状”最明显的解决办法,就是把它锤回去。 在提出问题时,恰当地传达紧迫感至关重要——既不能夸大,也不能低估问题的严重性。而且,当你指出问题时,应该同时提出明确的诉求,告诉大家该如何解决这个问题。 有些问题在彻底崩溃前,唯一的症状就是“钉子松动” 当然,我们也得为“钉子”说几句公道话!比如,为什么这颗钉子会凸出来?也许是因为书架上放了太重的东西? 有些时候,确实存在需要被指出的严重问题,但除了像“锤子”那样粗暴的手段外,并没有显而易见的解决方法。这时,你不得不站出来,做那颗凸出来的“钉子”。虽然你几乎肯定会被锤回去,或者被移除/替换,但如果开始有越来越多的钉子凸出来,人们最终会开始审视整个结构的完整性出了什么问题。 懂得何时指出问题,带着方案来,并在关键时刻坚定立场 我喜欢把自己看作是一个能够提前发现问题,并通过提出正确问题来引发关注的人。我希望自己能更擅长分辨什么时间该要求什么,并且当我知道问题真的很严重时,能够更加坚定。 我确实有点过度引申了“钉子”的比喻。这句话原本更多是关于社会从众心理,而不是关于提出问题。但在某些方面,我认为从人群中“突出来”,往往也是一种以身作则、通过亲身实践来表达你认为事情应该有所改变的方式。 来源:
宝玉
3个月前
Gemini 3 Pro 已经可以在 AIStudio 使用了,模型卡也泄漏了,各方面都很强,除了软件工程基准(SWE Bench)方面略低于 Sonnet 4.5 和 GPT-5.1 ​​​ 直接转译下下面 Deepy 的总结: --- 谷歌最新一代AI大模型Gemini 3的性能数据,居然在官方发布前数小时提前泄露!从泄露的数据看,这款模型简直强大到离谱,让人忍不住想深入挖掘一下,它的发布究竟意味着什么? 1. 成本不再是障碍:普通人也能用得起的强大AI 谷歌这次从零开始,在自家的TPU芯片上训练了Gemini 3模型。它采用了专家混合网络(Mixture of Experts,简称MoE)架构,可以处理超长输入(高达100万token)和输出(64k token),而MoE设计的精妙之处就在于:即便性能爆炸提升,成本也并不会疯涨。也就是说,普通用户未来用上这么强大的AI,花费也不会太高! 2. 电脑操作能力大跃升:真正实现自动化的知识工作 Gemini 3在一项鲜为人知却非常实用的测试ScreenSpot Pro中表现惊艳。这个测试考验AI理解各种软件截图的能力,包括AutoCAD、PhotoShop等专业工具界面。结果Gemini 3以73%的得分一举超过之前最好的模型足足两倍,遥遥领先!这意味着Gemini 3真正能够在复杂的工作场景下,帮助人们高效自动化完成专业的知识型工作。 3. 数学能力“一骑绝尘”:其他模型望尘莫及 Gemini 3这次特别经过大量数学定理证明的强化学习,数学能力超凡。在美国数学邀请赛(AIME)中几乎达到了“完美表现”,而在难度超高的**MathArena**数学基准测试中也达到了惊人的23%(其他主流模型几乎都只有1%左右)。此外,它在体现真正“通用推理能力”的ARC AGI 2测试中,也创造了30%的领先记录,这显示Gemini 3不仅在数学上是顶尖的,通用推理能力也同样拔群。 4. 编程能力惊人,但还有成长空间 Gemini 3在编程测试中展现了惊人的实力,比如在LiveCodeBench的国际象棋等级分(Elo)评分超过了2400,非常优秀。但也有一点小插曲:它在软件工程基准(SWE Bench)中并未拿下第一,反而输给了竞争对手。但在“工具调用”和“终端使用”等测试上,它依然稳居第一。这说明Gemini 3在互动编程、实时问题解决方面非常强悍,但在复杂、长期的代码维护方面,还有提升的空间。 --- 谷歌这次几乎动用了所有的“压箱底绝招”:完善的训练方法、大量私有数据、全新的模型架构,然后在几乎所有重要的基准测试中都实现了碾压式领先。这次升级,明确告诉我们:AI领域的发展速度不仅没有放缓,甚至还在加速向前。 目前来看,谷歌在大模型领域已经形成了相当明显的领先优势。为什么这么说? - 成本优势:谷歌拥有自家芯片TPU,训练成本明显更低; - 数据优势:谷歌掌握远超其他公司的海量专有数据; - 资金优势:拥有雄厚财力投入更多训练和数据资源; - 人才优势:谷歌的人才储备也丝毫不输其他顶级公司。 这种全面碾压的格局,接下来6个月恐怕都难以撼动。谷歌已经用Gemini 3向全世界展示了自己在AI领域的绝对主导地位,而其他公司能否追上,现在还是一个未知数。 无论如何,Gemini 3的发布注定将再次掀起一场AI界的大地震!
宝玉
3个月前
一方面我不喜欢 Andrej Karpathy 总是发明新的概念,一方面又不得不承认他确实很多想法是很有价值的。 比如这里对 Software 1.0/2.0 的定义就挺好的: 1). 软件1.0时代,容易自动化的是你能明确告诉计算机怎么做的事情。 2). 软件2.0时代,容易自动化的是你能自动验证结果好坏的事情。 那这里的自动化都什么意思呢? 1. 软件1.0:靠指定规则(Specify Rule)自动化 过去的几十年,我们用的所有传统软件(比如Excel、Word、会计系统),都是“软件1.0”。 它的核心逻辑是“指定”(Specify)。 你必须像个事无巨细的监工,把每一个规则都用代码写得清清楚楚。比如做个会计软件,你必须告诉它: “如果A栏的数字大于B栏,那么C栏就显示红色。”“月末,把所有D栏的数字加起来,放到Z栏。” 软件1.0擅长什么? 自动化那些规则固定、逻辑清晰的任务。 软件1.0解决的是什么问题呢? 是人类的“机械性重复劳动”。比如打字员、记账员、算账员。只要一个任务的全部流程能被清晰描述出来,软件1.0就能接管它。 2. 软件2.0:靠指定目标(Specify Objective)自动化 现在,AI 来了,升级到了软件2.0。 它的逻辑完全变了。我们不再是指定规则,而是设定目标。 我们不再像监工一样告诉AI每一步怎么做,而是像个教练,只告诉它验收的标准是什么。 比如训练AI下棋。我们不告诉它“当对方出这一招,你就必须走那一步”。我们只给它一个目标:“想办法赢棋”。 然后,AI 就开始自己搜索那个能赢棋的步骤。它通过海量的自我对弈(也就是梯度下降)来寻找最佳策略。 这就是 AK 的核心观点:软件1.0是我们手动写程序,软件2.0是AI自动搜索生成程序。 3. 软件 1.0 时代看“可指定性”(Specifiability),2.0 时代看“可验证性”(Verifiability)。 如果说软件 1.0 自动化任务的标准是我们能不能指定清晰的规则,比如说你要写个自动抓取的爬虫,只要指定清晰饿抓取规则和解析规则就可以了。 那么软件 2.0 自动化任务的标准则是结果是不是能自动被验证。 “可验证性”就是AI能不能在一个任务上进行高效的“刻意练习”。 AK 给出了“可验证”的三个关键条件: 1). 可重置 (Resettable) AI必须能够无限次地重新开始尝试。比如下棋,这局输了,没关系,棋盘一清,马上开下一局。 2). 高效率 (Efficient) AI的练习速度必须远超人类。它可以在一小时内“看”完人类一辈子都看不完的视频,一天内下几百万盘棋。 3). 可奖励 (Rewardable) 这是最关键的一点。必须有一个自动化的、即时的、没有争议的奖惩机制。 自动化至关重要。如果AI每次做完一件事,都需要一个人类专家来看半天,然后给个模棱两可的评价(比如“嗯,这个创意还行”),那AI就没法高效学习。 像在编程、数学领域就很容易符合上面的三个条件,但是像写作这种非标准化的就很难验证。 但对于软件来说,稍微复杂一点的软件系统,其实很难达到可验证的标准。 比如说我在实现 UI 时,会尝试把 UI 设计稿扔给 AI,然后给 AI 一个截图工具,让它反复截图对比设计稿,然后找出差异优化,但是以目前的 AI 能力,还不足以修复这些差异,所以无论你运行多久,也不会真的得到一个理想的结果。 这可能就是我不太喜欢 AK 发明的这些新概念的原因,总是提出一个个概念,但是并没有解决多少问题。
宝玉
3个月前
来自 X 账号 TestingCatalog 的爆料:Google 在 Gemini 企业版(Gemini Enterprise)里新增多智能体「自动做研究」模式 Google 正在 Gemini for Enterprise 里打造一个多智能体系统。你给它一个主题,再配上一套评估标准,它就能自己生成一大堆点子,然后拉起一整支智能体团队,像打锦标赛一样一轮轮评审这些点子。 这个系统一次可以连续干活大约 40 分钟。对一个面向普通企业用户的产品来说,这已经是非常长的一次连续推理过程了。 在这 40 分钟结束时,用户会收到一大串点子清单,按你一开始设定的标准从优到劣排好名。整个规模也不小:系统一次能产出大约 100 个点子。对每一个点子,你都能拿到: - 一个概览 - 一个更详细的说明 - 一份点评总结 - 一份完整长评 - 以及一份专门的「锦标赛表现报告」(tournament performance report) 这个「表现报告」还是一个单独的输出,可以单独打开慢慢看。所有生成出来的点子都是可选择的,你可以点进任意一个,继续深入展开。 在当前的内测版本里,Google 看起来内置了三个智能体,其中有两个就是搭在这个多智能体「锦标赛」系统之上的。 第一个叫 “Idea Generation”(创意生成) 在这个模式里,你只要给一个主题,这个智能体就会启动整套多智能体工作流,用「锦标赛式评估」(tournament-style evaluation)来生成和排序各种相关点子。(所谓锦标赛式,就是不断让方案互相“对决”,胜出的留下,弱的被淘汰) 第二个叫 “Co-scientist”(联合科学家) 这个则更偏向科研和研究场景。你可以指定一个研究主题,再提供一些额外数据,然后一整个智能体团队会先生成研究方向和方案,再用同样的锦标赛机制去评估这些想法,只是这次会更强调科研和科学探索的需求。 这里最有意思的一点,是它背后明显投入了非常夸张的算力。允许智能体在一个任务上连续工作大约 40 分钟,这在现在的大多数智能体工具里都算是「豪华配置」了。 在整个 40 分钟里,系统会不断迭代这个问题,不停生成、筛选、打分、重组。目前,这一切都还只出现在 Gemini for Enterprise 里,属于内部开发阶段,对普通用户是隐藏的,还没有以正式功能形式对外开放。 跟现有的智能体实现相比,这一套看起来是个明显的前进一大步。就算是那些已经带浏览器模式的高级智能体,通常也会受限于上下文窗口和时间预算(time budget)。 而这次,Google 的做法,是直接把一大块算力「摆在台面上」给企业客户用,做成一个正儿八经的前端产品界面。这也和所谓的「Level 3 AI」的概念非常契合:这一层级的 AI 智能体,被描述为可以在同一个问题上持续工作一段较长时间。(这里的 Level 3 并不是统一标准,更像是行业里对“能长时间连续工作的智能体”的一种非正式分级说法)从这个角度看,让智能体在单个任务上跑满 40 分钟,是一个非常典型、甚至偏激进的例子。 在实际使用中,这套系统输出的核心是「被充分筛选和精炼过的点子集合」。但它们远不只是随手抛出来的一堆建议,而是可以视为一组结构化的研究方向:在你给定的数据和问题背景下,这些方向有可能真正指向高价值的洞见。所以,Google 正在推进这种极其强力的智能体能力,专门服务于组织、公司和研究团队,这件事本身非常耐人寻味。 等这项功能真正对外发布时,很可能会是一次不小的跃迁,尤其是如果这些智能体最终由 Gemini 3 Pro 来驱动的话。现在,Gemini 3 Pro 还没有进入 Gemini Enterprise,所以目前还不清楚这些实验性智能体背后具体用的是哪一个模型。 这里依然有很多东西需要测试和验证。当你把一个提示词(prompt)提交给这套系统时,它首先会给出一份「计划做什么」的概要:会在哪些维度上评估、打算从哪些方向出发生成和筛选点子。只有在你确认这份概要之后,系统才会真正启动那次「大任务」。这相当于在烧一大笔算力之前,先和你对齐「我到底打算怎么理解你的问题」。 除了多智能体锦标赛工作流之外,Gemini Enterprise 里还有另一个智能体,叫 “chat with your docs”(和文档聊天),它配了一套独立的 UI。这个智能体允许用户上传大小最高 30MB 的 PDF,然后面向这些文档进行专门对话。 这个功能同样属于 Gemini Enterprise 的一部分,目前还没有对外发布,而且在生产环境中暂时不可用。它的设计思路是:最多 30MB 的 PDF 内容可以被分析并写入模型的上下文里,这样用户就能从现有文档中抽取更有价值的信息,而不是只靠人自己翻页看。 在 Gemini Enterprise 里,还有不少其他功能正在开发中,但真正最抢眼的,还是这两条线: 1. 多智能体锦标赛式工作流 2. 面向文档的专用智能体 特别是那个基于锦标赛的多智能体架构,看起来就是一种突破性的产品路线——其他大语言模型(LLM)服务商,目前似乎还没有在这个层级上,给用户提供类似的东西。多智能体锦标赛在面向终端用户的工具里依然非常少见。也许可以拿 Grok Heavy 来做某种对比,但很可能也不能算是和 Google 这套完全同一个方向的东西。 等这些智能体成熟之后,如果能看到一套正式的评估结果和基准测试,那会非常有价值。光从现在的描述来看,那个 Co-scientist 智能体已经足够让很多大型组织和研究团队心动——尤其是那些正在探索新科学方向的团队。 至于这些智能体具体什么时候会正式上线,或者会不会开放给非企业用户,目前还都是未知数。 来源:
宝玉
3个月前
转译:也许你并没有真正尝试——能干的人,也会选择性地无能为力 作者:Cate Hall 转译:也许你并没有真正尝试——能干的人,也会选择性地无能为力 作者:Cate Hall 五年前的假期里,有两件事情同时发生在我身上:我去了戒毒康复中心,并且遭遇了一名网络跟踪者。这两件事并非完全没有关联。那个跟踪我的人来自印度,他是在我玩扑克牌时开始关注我的。他逐渐认定我们之间存在某种亲密关系,并坚信我的每条推特都是专门发给他的暗号。当我连续两个月停止发推后,他确信我一定出事了,于是找到我的邮箱和电话号码,开始疯狂给我发消息,逼问我的下落。 当我意识到这一切时,情况已经失控了。我明确地知道,自己永远不会回应他。我开始不断拉黑他的账号,但他总能换个号码、注册新账号或用其他方法找到我。他每天给我发几十条消息,从威胁到哀求都有。半年后,他甚至找到了我的公司申请职位,我由此得知了他的真实姓名,试图通过他的一位旧友来寻求帮助。然而,那位朋友却因为害怕惹祸上身而拒绝帮忙。我感觉自己束手无策,只好寄希望于他迟早会放弃。 但他从未放弃。数年过去了,我从未回复过他,他却每天依旧给我发数条消息。这些消息越来越恐怖,越来越色情,甚至威胁称会来伯克利伤害我。去年11月,情况终于到了极点:短短几天内,他向我发来了他刚办好的护照和签证申请的照片,并宣称即将前往美国。同时,他通过伪装我的电话号码向我哥哥勒索了一笔钱,声称绑架了我。 「受够了!」我愤怒地想,我决定立刻行动起来。但事实上,我什么都没做。我只是蜷缩成一团哭泣,朋友们劝我报警,我却绝望地认为,自己在美国,他在印度,报警根本没用。 可我的丈夫并不这样想。他坚持认为一定有更好的办法,并请求我允许他代我处理此事。他迅速联系了FBI和美国驻印度领事馆,并在他朋友Govind的帮助下(Govind在印度有亲戚),成功联系到当地警方。短短几个月后,问题得到彻底解决。那个跟踪者再也无法踏上美国的土地。 这件事最有意思的一点是,我丈夫采取的策略并不特别新颖。他所用的方法,和我帮别人处理类似问题时能想到的几乎一模一样。那么,为什么非得另一个人介入,我才明白自己并没有真正尝试过? 我想原因可能是这样的:当跟踪者进入我生活时,我正处于人生的低谷期——孤独、迷茫又穷困潦倒。当时我采用的唯一应对办法,就是忽略并寄希望于他自己放弃,这似乎是当时我唯一有能力做的事。但问题在于,我对这个问题的态度,从那时起就被固定住了。后来,我的生活状况逐渐改善,我的能力也增强了,可我从未重新评估过当时的做法是否正确。 我想,我们所有人都是如此。 人并非简单地高能或低能,而是选择性地拥有行动力(selectively agentic)。 假设我们把生活分成三大领域:工作、与他人的关系(包括所有人际关系)、以及自我关系(身体健康、自我探索、情绪成长等等)。事实上,每个人可能都有至少一个领域,仍然停留在早年未成熟的阶段。在那个领域,我们面对问题时就像十几岁的孩子一样幼稚和无助,而事实上我们早已成年。 在我所处的圈子里,有许多工作领域的高成就者。他们在科学、技术和政策领域不断创新,改变世界。但他们中的不少人,却没有将同样的聪明才智应用到内心的成长和人际关系中。他们能在异国他乡成功推出新产品,却抱怨在约会软件上找不到有趣的人。 默认情况下,我们面对一个曾经失败过的问题时,总是停留在最初尝试并失败的那种无助状态。 比如,假设你20岁时曾尝试过心理治疗,但并未有效缓解焦虑。你逐渐认定这是个无法解决的问题,于是接受焦虑就是你性格的一部分。但现在,你可能已经32岁了,是一家创业公司的技术主管。当工作中遇到难题时,你总能竭尽全力,尝试各种方法,不断学习。可对待自己的焦虑问题时,你却不再尝试了。 你可能从没认真想过自己是否能: - 仔细检查自己的营养和睡眠状况; - 了解各种补剂或药物; - 投资改善自己的休息与恢复; - 问问朋友们最有效的治疗方法,寻找最优秀的治疗师或教练; - 研究一些专为你这样的人开发的新疗法。 你没做这些事,只是忍受,或者用最初学到的需要极大意志力的方法来抵抗焦虑。这种挣扎让你觉得自己很努力。然而感受到辛苦,并不意味着你真正尝试过了。 这让我想起了亚历山大技巧(Alexander Technique)的一个相关概念:“感知失真”(faulty sensory appreciation)。长久习惯的身体紧张会扭曲你的感官,让你误以为僵硬的姿势才是“良好的体态”。同理,那些选择性无能的人可能也有感知失真的情况。比如你觉得人际关系总是困难重重,需要不断付出意志力,这种辛苦甚至成了你努力的证明。然而,不断地挣扎可能只是说明你的生活结构存在问题。 我建议你假设,在你的生活中肯定存在某个领域,你不自觉地被冻结在了过去的某个状态。这非常值得你仔细排查。仔细审视一下工作、与他人关系和自我关系这三个方面,找出你面对的最大问题。有时候,它可能看起来并不像个具体问题,而只是一种悲伤或愤怒,比如没人理解的悲伤,或工作缺乏意义的挫败感。 找到它们后,问问自己:“我真的已经尽了全力、用尽了所有资源去想办法了吗?如果换成朋友遇到同样的问题,我能否给出更好的建议?我如何确定自己是真的尝试过了?” 注:作者的新书《You Can Just Do Things》即将出版。 --- 来源: 五年前的假期里,有两件事情同时发生在我身上:我去了戒毒康复中心,并且遭遇了一名网络跟踪者。这两件事并非完全没有关联。那个跟踪我的人来自印度,他是在我玩扑克牌时开始关注我的。他逐渐认定我们之间存在某种亲密关系,并坚信我的每条推特都是专门发给他的暗号。当我连续两个月停止发推后,他确信我一定出事了,于是找到我的邮箱和电话号码,开始疯狂给我发消息,逼问我的下落。 当我意识到这一切时,情况已经失控了。我明确地知道,自己永远不会回应他。我开始不断拉黑他的账号,但他总能换个号码、注册新账号或用其他方法找到我。他每天给我发几十条消息,从威胁到哀求都有。半年后,他甚至找到了我的公司申请职位,我由此得知了他的真实姓名,试图通过他的一位旧友来寻求帮助。然而,那位朋友却因为害怕惹祸上身而拒绝帮忙。我感觉自己束手无策,只好寄希望于他迟早会放弃。 但他从未放弃。数年过去了,我从未回复过他,他却每天依旧给我发数条消息。这些消息越来越恐怖,越来越色情,甚至威胁称会来伯克利伤害我。去年11月,情况终于到了极点:短短几天内,他向我发来了他刚办好的护照和签证申请的照片,并宣称即将前往美国。同时,他通过伪装我的电话号码向我哥哥勒索了一笔钱,声称绑架了我。 「受够了!」我愤怒地想,我决定立刻行动起来。但事实上,我什么都没做。我只是蜷缩成一团哭泣,朋友们劝我报警,我却绝望地认为,自己在美国,他在印度,报警根本没用。 可我的丈夫并不这样想。他坚持认为一定有更好的办法,并请求我允许他代我处理此事。他迅速联系了FBI和美国驻印度领事馆,并在他朋友Govind的帮助下(Govind在印度有亲戚),成功联系到当地警方。短短几个月后,问题得到彻底解决。那个跟踪者再也无法踏上美国的土地。 这件事最有意思的一点是,我丈夫采取的策略并不特别新颖。他所用的方法,和我帮别人处理类似问题时能想到的几乎一模一样。那么,为什么非得另一个人介入,我才明白自己并没有真正尝试过? 我想原因可能是这样的:当跟踪者进入我生活时,我正处于人生的低谷期——孤独、迷茫又穷困潦倒。当时我采用的唯一应对办法,就是忽略并寄希望于他自己放弃,这似乎是当时我唯一有能力做的事。但问题在于,我对这个问题的态度,从那时起就被固定住了。后来,我的生活状况逐渐改善,我的能力也增强了,可我从未重新评估过当时的做法是否正确。 我想,我们所有人都是如此。 人并非简单地高能或低能,而是选择性地拥有行动力(selectively agentic)。 假设我们把生活分成三大领域:工作、与他人的关系(包括所有人际关系)、以及自我关系(身体健康、自我探索、情绪成长等等)。事实上,每个人可能都有至少一个领域,仍然停留在早年未成熟的阶段。在那个领域,我们面对问题时就像十几岁的孩子一样幼稚和无助,而事实上我们早已成年。 在我所处的圈子里,有许多工作领域的高成就者。他们在科学、技术和政策领域不断创新,改变世界。但他们中的不少人,却没有将同样的聪明才智应用到内心的成长和人际关系中。他们能在异国他乡成功推出新产品,却抱怨在约会软件上找不到有趣的人。 默认情况下,我们面对一个曾经失败过的问题时,总是停留在最初尝试并失败的那种无助状态。 比如,假设你20岁时曾尝试过心理治疗,但并未有效缓解焦虑。你逐渐认定这是个无法解决的问题,于是接受焦虑就是你性格的一部分。但现在,你可能已经32岁了,是一家创业公司的技术主管。当工作中遇到难题时,你总能竭尽全力,尝试各种方法,不断学习。可对待自己的焦虑问题时,你却不再尝试了。 你可能从没认真想过自己是否能: - 仔细检查自己的营养和睡眠状况; - 了解各种补剂或药物; - 投资改善自己的休息与恢复; - 问问朋友们最有效的治疗方法,寻找最优秀的治疗师或教练; - 研究一些专为你这样的人开发的新疗法。 你没做这些事,只是忍受,或者用最初学到的需要极大意志力的方法来抵抗焦虑。这种挣扎让你觉得自己很努力。然而感受到辛苦,并不意味着你真正尝试过了。 这让我想起了亚历山大技巧(Alexander Technique)的一个相关概念:“感知失真”(faulty sensory appreciation)。长久习惯的身体紧张会扭曲你的感官,让你误以为僵硬的姿势才是“良好的体态”。同理,那些选择性无能的人可能也有感知失真的情况。比如你觉得人际关系总是困难重重,需要不断付出意志力,这种辛苦甚至成了你努力的证明。然而,不断地挣扎可能只是说明你的生活结构存在问题。 我建议你假设,在你的生活中肯定存在某个领域,你不自觉地被冻结在了过去的某个状态。这非常值得你仔细排查。仔细审视一下工作、与他人关系和自我关系这三个方面,找出你面对的最大问题。有时候,它可能看起来并不像个具体问题,而只是一种悲伤或愤怒,比如没人理解的悲伤,或工作缺乏意义的挫败感。 找到它们后,问问自己:“我真的已经尽了全力、用尽了所有资源去想办法了吗?如果换成朋友遇到同样的问题,我能否给出更好的建议?我如何确定自己是真的尝试过了?” 注:作者的新书《You Can Just Do Things》即将出版。 --- 来源:
宝玉
3个月前
根据Replicate官方博客11月17日发布的消息,AI模型部署平台Replicate宣布将加入Cloudflare。 Replicate是一家致力于构建“AI原生工具”的公司,旨在让软件开发者能更轻松地使用AI,而无需深入了解其底层的复杂技术。他们开发了开源工具Cog(一种标准化的模型格式)以及Replicate平台,允许开发者分享AI模型并通过API运行它们。 公告将这些AI工具比作在云端运行的“分布式操作系统”。因为运行AI模型需要专业的GPU和庞大的集群,所以“网络就是计算机”。 而Cloudflare拥有全球领先的网络,并且已经构建了这个“操作系统”的许多其他部分,例如用于运行代码的Workers、用于管理状态的Durable Objects以及用于存储的R2。 为什么合并? Replicate认为,通过将其底层的AI抽象(如模型运行、数据输入输出)与Cloudflare强大的开发者平台相结合,双方可以构建更高级别的AI工具,例如用于编排模型、构建AI代理(Agents)以及在边缘运行实时模型。 对用户有何影响? 公告明确表示,Replicate将继续作为一个独立的品牌运营,并且会变得“更好”——速度更快、资源更充足。 对于现有用户最关键的信息是: - API不会改变。 - 用户当前使用的模型将继续工作。 - 所有构建在Replicate上的应用将继续照常运行。 Replicate的联合创始人表示,Cloudflare是构建Web应用的默认选择,而通过这次联手,他们的共同目标是成为“构建AI应用的默认选择”。
宝玉
3个月前
前几天 Anthropic 发布的那份报告《挫败首例由 AI 策划的网络间谍活动(Disrupting the first reported AI-orchestrated cyber espionage campaign)》 已经被很多人骂过了,这几天在 Hacker News (HN) 上也是被群嘲。 报告的核心指控是:他们发现并阻止了一个“复杂的”网络间谍行动,该行动由一个他们定性为“中国政府资助”的组织(代号 GTG-1002)发起。而最关键的一点是,这个组织使用 AI(特别是 Claude)来“编排和执行”其 80-90% 的战术行动。 社区的开发者和安全专家们非但没有感到震惊,反而将这份报告扒了个底朝天。结论几乎一边倒:这与其说是一份威胁情报,不如说是一份精心包装的营销噱头。 首先是一位安全行业的专业人士 djnn .sh 发表了一篇博文 “Anthropic 的报告闻起来就像狗屁” (Anthropic's paper smells like bullshit) 成为了 HN 上的热门讨论帖。 1. 文章中一个观点大家都很认同:“PoC || GTFO” (要么拿出证据,要么滚蛋)。 一份严肃的网络安全威胁情报报告,是有行业标准的。你必须提供 IoCs(入侵指标)——比如攻击者使用的域名、IP、文件哈希值;以及 TTPs(战术、技术和程序)——他们具体是怎么做的。 而 Anthropic 的报告里几乎都没有什么证据。 HN 社区对此的共识是:这份报告“技术含量为零”。 用户 rfoo: > 别说和现代报告比,“就连卡巴斯基十年前一份关于 Duqu 2.0 的报告,都包含了扎实的技术链接和归因理由。” Anthropic 这份报告简直是“slop”(残羹剩饭)。 用户 padolsey: > 这似乎成了一种新常态。“AI 实验室(点名了 GPT-5 的系统卡和微软的红队测试)都喜欢‘pro-research’(自称支持研究),但发布白皮书时却从不附带代码和数据。” 一份没有技术细节、无法验证、无法让其他安全团队据此设防的“报告”,根本不配被称为“威胁情报”。 2. 如果说缺少 IoC(入侵指标)只是“不专业”,那么 HN 网友 gpi 则发现这份报告在“有意夸大”。 网友 gpi 发现,Anthropic 在发布报告后,悄悄地将从“每秒数千次请求”改为了“数千次请求,经常每秒多次”。 > Edited November 14 2025: > Corrected an error about the speed of the attack: not "thousands of requests per second" but "thousands of requests, often multiple per second" 任何一个技术人员,都绝不可能把这两个概念搞混,大概率是营销部门在撰写报告时,为了戏剧效果而添油加醋,结果被技术社区抓包。 3. 牵强的归因和逻辑,一切都是为了营销 报告中最具煽动性、也最受诟病的,就是将攻击“归因”于“中国政府资助的组织”。 网友 snowwrestler 给出了一个非常专业的分析:将攻击归因于“国家行为体”有三种途径: (1) 纯粹假设: 默认来自某国的坏事都是政府干的(这显然不靠谱)。 (2) 技术签名: 攻击手段与已知的、公开的 APT(高级持续性威胁)组织的特征库相匹配。 (3) 情报工作: 来自 NSA、FBI 等真正情报机构的内部信息。 Anthropic 不太可能有(3),如果他们有(2),就应该像其他安全公司一样,公布这些技术签名证据。但他们没有。 那么,他们为什么要这么做? 用户 woooooo 提出了一个经典的“职场政治”洞察: “归咎于‘国家级超级间谍’是最好的免责声明。‘我们被超级间谍黑了’听起来,可比‘我们被一个随便的家伙(rando)给黑了’要体面得多。” 用户 prinny_ 则看得更深:“在缺乏证据的情况下,这种归因看起来更像是一种政治游说,目的是让美国政府介入,并成为那个让资金(投资)不断流动的‘大投资者’。” 在原文中就已点明,报告的结尾赫然写着: “网络安全社区需要……试验将 AI 用于防御……” HN 用户 DarkmSparks 做了个总结: “Anthropic 提出了一堆未经证实的指控,关于一个他们没具体说明的新问题。然后在最后,Anthropic 提出了解决这个未说明问题的方案——给 Anthropic 钱。” “这根本就是伪装成威胁报告的宣传材料,”用户 cmiles74 评论道,他还发现 Anthropic 在八月份也发过类似的“营销式”报告。 4. APT 真的会用 Claude 吗? 抛开营销和政治不谈,HN 社区对这个攻击场景本身也提出了一个巨大的“黑人问号”:一个“高度复杂”的 APT 组织,真的会选择用 Claude 这种公开的、需要绑银行卡的商业 API 来执行核心任务吗? 网友 KaiserPro 分享了他的一线经验:他曾在一家 FAANG 担任 SRE,也参与过对内部安全 AI 的“红队测试”。他的结论是:“AI 有点用,但对于‘协调’(coordination)任务来说,帮助不大。” 他最尖锐的质疑是:“你的 API 是绑定了银行账户的。在一个非常公开的系统上‘Vibe Code’一个指挥控制系统(C&C),这似乎是个非常糟糕的选择。” 网友 neuroelectron 则提出了一个充满讽刺的悖论: “我的 Claude 拒绝了我 10 个提示中的 9 个,并对我进行‘安全教育’,但它却被用于真正恶意的间谍活动?谁来让这个逻辑自洽一下。” 社区普遍认为,一个真正的 APT 组织,更有可能使用自己私有的、离线的、不受审查的本地模型,而不是一个处处受限、日志完备的美国公司产品。 5. 当 AI 泡沫遇上安全 FUD(恐惧、不确定和怀疑) 用户 EMM_386 提出了一个“洗地”角度: “我们都搞错了。Anthropic 不是一家安全厂商……这份报告的受众不是 SOC(安全运营中心)的工程师,而是政策制定者和 AI 安全研究者。它警告的是一种新的攻击模式。” 这个观点试图将这份报告从“技术文档”的失败,挽救为“政策白皮书”的成功。 但这个观点立刻遭到了反驳。用户 padolsey 回应道:“就算如此,他们也完全可以分享脱敏的 Prompts、攻击的编排模式。他们这种刻意的模糊,根本不是安全行业的运作方式。” 也许 Anthropic 根本就没有一个能写出合格威胁报告的安全团队。他们只是在自己最擅长的 AI 领域上,看到了一个他们认为或者希望存在的问题,然后用他们最不擅长的方式(写安全报告)把它包装起来,其核心目的,依然是 AI 圈的老套路:制造 FUD (恐惧、不确定和怀疑),然后销售解药。 这就像当年索尼 PS2 刚发布时,有传闻说“伊拉克在购买数千台 PS2 来制造超级计算机”一样,听起来很酷,但本质上都是营销。
宝玉
3个月前
报告:蒂姆·库克最早或于明年卸任苹果CEO 据《金融时报》报道,苹果公司已经加快了现任首席执行官 (CEO) 蒂姆·库克 (Tim Cook) 的交接准备工作。以下是详细信息。 根据《金融时报》的消息来源,苹果董事会和高层管理人员“最近加强了”公司最高职位的继任规划。 《金融时报》补充说,尽管苹果的硬件工程高级副总裁约翰·特努斯 (John Ternus) 是最有可能接管公司的人选,但“尚未做出最终决定”。 虽然该报告没有提及苹果为何要加快继任步伐,但指出此举与公司业绩无关: “接近苹果的人士称,这个筹备已久的过渡计划与公司当前的业绩无关,预计iPhone在年底的销售季将迎来重磅表现。 公司不太可能在明年1月下旬(这个时间点将公布关键的圣诞假期销售业绩)发布最新财报前任命新的CEO。” 史蒂夫·乔布斯 (Steve Jobs) 去世后,人们曾对蒂姆·库克——或者说任何人——能否成功接过帅印持极大的怀疑。但库克证明了批评者是错的。在他的领导下,这家曾经的“挑战者”蜕变成了一个商业巨无霸,并扩大了其忠实的用户基础。在我看来,他最大的成就之一就是推动了 苹果自研芯片 (Apple Silicon) 。 他将留给继任者的最大挑战,是苹果对中国的深度依赖。至于在AI方面,目前还胜负未分。但从甲骨文 (Oracle) 等所谓“AI领导者”本周股价的下滑来看,蒂姆·库克的谨慎策略,回过头看,也许并不是什么坏事。 他们的消息来源还警告说,“尽管准备工作已经加强,但任何公告发布的时间都可能会发生变化”。 就在这份报告发布的几小时前,前任首席运营官 (COO) 杰夫·威廉姆斯 (Jeff Williams) 刚刚度过了他在苹果的最后一天,他于今年7月宣布了退休计划。 威廉姆斯已于今年早些时候将运营领导权交给了萨比·汗 (Sabih Khan),而他剩余的职责最近被重新分配给了其他高管,特努斯也是其中之一。 苹果最近还经历了一次首席财务官 (CFO) 的交接,任职多年的财务主管卢卡·马埃斯特里 (Luca Maestri) 卸任,将职位交给了凯文·帕雷克 (Kevan Parekh),后者此前担任公司的财务规划与分析副总裁。 来源:
宝玉
3个月前
这可能是我写的最“接地气”的 AI 科普:从家政阿姨看懂 Agent 和 MCP 我家请了个家政阿姨打扫卫生,这位阿姨高中毕业,但是经过了家政公司专业训练,学会了该怎么针对不同家庭去打扫卫生,使用各种不同的清洁工具。 当然她不可能记住所有工具的用法,所以额外的,家政公司还给她了一本《家政技能手册》,这个手册有两部分,一部分是目录,不同技能的简要介绍,字数不长,阿姨每次来干活之前都会读一遍目录,以便需要时能想起来; 《家政技能手册》的另一部分是技能的详细介绍,详细介绍里面不仅说明了各种技能的详细做法,有的还有配套的手册,有的还需要借助一些工具。 家政公司还给阿姨配备了一款定制的平板电脑,这个平板电脑支持一种智能家居协议,所有支持这种智能家居协议的家电她都可以用这个平板电脑连上操作。 为了提升效率,家政公司还给她配备了便携式扫地机器人,每次她都开车带上,一些扫地的任务就直接使用扫地机器人。 为了我经常需要阿姨来家里打扫,为了避免麻烦,所以我把我家的一些基本情况写成了说明书,好让阿姨知道该怎么更好的清扫我们家,并且阿姨很专业,每次工作完都写了一份详细的工作记录,这样她下次来还可以看一下以前都做了啥。 虽然有这个说明书,当然每次过来我还是要交代一下:“阿姨,明天我家要开了个 party,客厅一定要弄干净整洁点。” --- 说了这么多我当然不是为了炫耀我家请了个阿姨干活或者帮这家家政公司打广告,而是借这个来“辅助解释”一些常见的 AI 名词。 - 家政阿姨:AI Agent,有基础知识(类似于大语言模型),经过训练,会规划会使用工具 - 扫地机器人:SubAgent,专业的、自主的执行者。 主AI(阿姨)负责委托和监督,机器人(SubAgent)负责具体执行。这大大解放了主AI的精力(上下文窗口),让她可以去干更重要的活。 - 智能家居协议:MCP(模型上下文协议),智能家居协议就是那个家电的统一标准: 支持智能家居协议(MCP 协议)的家电工具阿姨都可以使用。 - 《家政技能手册》:Skills,家政技能手册可以帮助阿姨(Agent)学会她没有被训练过的技能,而且这些技能是“动态加载”和“渐进式披露”的。 “动态加载”的意思是:阿姨只有在需要用特定技能的时候,才会去《家政技能手册》翻该技能的详细内容。 “渐进式披露”的意思更进一步:阿姨不会一开始就把整本手册都读完,她干活前先看一眼目录(元数据,大约 100 个词),“哦,这个技能跟我现在的任务有关”。然后它再打开读具体章节(完整的指令,小于 5000 词)。 这有什么好处?省脑子(省上下文窗口)。 确保阿姨总是在最需要的时候,用最少的“脑力”获取最关键的专业知识。 - 我家:Project,存放了与我家相关的说明书、历史信息。 希望上面这个比喻能帮助你更好的理解这些概念。 ⚠️ 需要注意的是,这些比喻只是帮助你理解这些概念,并不能代替你深入的去学习和理解这些知识。
宝玉
3个月前
我家请了个家政阿姨打扫卫生,这位阿姨高中毕业,但是经过了家政公司专业训练,学会了该怎么针对不同家庭去打扫卫生,使用各种不同的清洁工具。 当然她不可能记住所有工具的用法,所以额外的,家政公司还给她了一本《家政技能手册》,这个手册有两部分,一部分是目录,不同技能的简要介绍,字数不长,阿姨每次来干活之前都会读一遍目录,以便需要时能想起来; 《家政技能手册》的另一部分是技能的详细介绍,详细介绍里面不仅说明了各种技能的详细做法,有的还有配套的手册,有的还需要借助一些工具。 家政公司还给阿姨配备了一款定制的平板电脑,这个平板电脑支持一种智能家居协议,所有支持这种智能家居协议的家电她都可以用这个平板电脑连上操作。 为了提升效率,家政公司还给她配备了便携式扫地机器人,每次她都开车带上,一些扫地的任务就直接使用扫地机器人。 为了我经常需要阿姨来家里打扫,为了避免麻烦,所以我把我家的一些基本情况写成了说明书,好让阿姨知道该怎么更好的清扫我们家,并且阿姨很专业,每次工作完都写了一份详细的工作记录,这样她下次来还可以看一下以前都做了啥。 虽然有这个说明书,当然每次过来我还是要交代一下:“阿姨,明天我家要开了个 party,客厅一定要弄干净整洁点。” --- 说了这么多我当然不是为了炫耀我家请了个阿姨干活或者帮这家家政公司打广告,而是借这个来“辅助解释”一些常见的 AI 名词。 - 家政阿姨:AI Agent,有基础知识(类似于大语言模型),经过训练,会规划会使用工具 - 扫地机器人:SubAgent,专业的、自主的执行者。 主AI(阿姨)负责委托和监督,机器人(SubAgent)负责具体执行。这大大解放了主AI的精力(上下文窗口),让她可以去干更重要的活。 - 智能家居协议:MCP(模型上下文协议),智能家居协议就是那个家电的统一标准: 支持智能家居协议(MCP 协议)的家电工具阿姨都可以使用。 - 《家政技能手册》:Skills,家政技能手册可以帮助阿姨(Agent)学会她没有被训练过的技能,而且这些技能是“动态加载”和“渐进式披露”的。 “动态加载”的意思是:阿姨只有在需要用特定技能的时候,才会去《家政技能手册》翻该技能的详细内容。 “渐进式披露”的意思更进一步:阿姨不会一开始就把整本手册都读完,她干活前先看一眼目录(元数据,大约 100 个词),“哦,这个技能跟我现在的任务有关”。然后它再打开读具体章节(完整的指令,小于 5000 词)。 这有什么好处?省脑子(省上下文窗口)。 确保阿姨总是在最需要的时候,用最少的“脑力”获取最关键的专业知识。 - 我家:Project,存放了与我家相关的说明书、历史信息。 希望上面这个比喻能帮助你更好的理解这些概念。 ⚠️ 需要注意的是,这些比喻只是帮助你理解这些概念,并不能代替你深入的去学习和理解这些知识。