最近听好几个AI播客,都提到这篇2019年由里奇·萨顿写的一篇文章“The Bitter Lesson(苦涩的教训)” 。 都觉得这篇文章非常经典,影响了后续的AI训练模型。 用Opus4.1 做个双语对照版,然后人工微调。 从70年的人工智能研究中能够读出的最大教训是,利用计算力的通用方法最终是最有效的,而且优势巨大。 The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin. 其根本原因是摩尔定律,或者更准确地说,是计算单位成本持续呈指数级下降这一普遍规律。 The ultimate reason for this is Moore's law, or rather its generalization of continued exponentially falling cost per unit of computation. 大多数人工智能研究都是在假设智能体可用的计算力是恒定的前提下进行的(在这种情况下,利用人类知识是提升性能的唯一途径之一)。 但是,在比典型研究项目稍长的时间内,必然会有大量更多的计算力变得可用。 Most AI research has been conducted as if the computation available to the agent were constant (in which case leveraging human knowledge would be one of the only ways to improve performance) but, over a slightly longer time than a typical research project, massively more computation inevitably becomes available. 为寻求在短期内产生差异的改进,研究人员试图利用他们对领域的人类知识,但从长远来看,唯一重要的是对计算力的利用。 Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation. 这两者并不一定相互矛盾,但在实践中它们往往如此。 These two need not run counter to each other, but in practice they tend to. 花在一个方面的时间就是没有花在另一个方面的时间。 Time spent on one is time not spent on the other. 对某一种方法的投入会产生心理上的承诺。 There are psychological commitments to investment in one approach or the other. 而且基于人类知识的方法往往会使方法变得复杂,使其不太适合利用计算力的通用方法。 And the human-knowledge approach tends to complicate methods in ways that make them less suited to taking advantage of general methods leveraging computation. 有许多人工智能研究人员迟来地学到这个苦涩教训的例子,回顾其中一些最突出的例子是很有启发性的。 There were many examples of AI researchers' belated learning of this bitter lesson, and it is instructive to review some of the most prominent. 在计算机国际象棋中,1997年击败世界冠军卡斯帕罗夫的方法是基于大规模的深度搜索。 In computer chess, the methods that defeated the world champion, Kasparov, in 1997, were based on massive, deep search. 当时,大多数计算机国际象棋研究人员对此感到沮丧,他们一直在追求利用人类对国际象棋特殊结构理解的方法。 At the time, this was looked upon with dismay by the majority of computer-chess researchers who had pursued methods that leveraged human understanding of the special structure of chess. 当一个更简单的、基于搜索的方法配合专门的硬件和软件被证明更加有效时,这些基于人类知识的国际象棋研究人员并不是优雅的失败者。 When a simpler, search-based approach with special hardware and software proved vastly more effective, these human-knowledge-based chess researchers were not good losers. 他们说"暴力"搜索这次可能赢了,但这不是一个通用策略,而且这也不是人类下棋的方式。 They said that "brute force" search may have won this time, but it was not a general strategy, and anyway it was not how people played chess. 这些研究人员希望基于人类输入的方法能够获胜,当它们没有获胜时,他们感到失望。 These researchers wanted methods based on human input to win and were disappointed when they did not. 在计算机围棋中也出现了类似的研究进展模式,只是延迟了20年。 A similar pattern of research progress was seen in computer Go, only delayed by a further 20 years. 最初的巨大努力都投入到通过利用人类知识或游戏的特殊特征来避免搜索。 但一旦搜索在规模上得到有效应用,所有这些努力都被证明是无关紧要的,甚至更糟。 Enormous initial efforts went into avoiding search by taking advantage of human knowledge, or of the special features of the game, but all those efforts proved irrelevant, or worse, once search was applied effectively at scale. 同样重要的是使用自我对弈学习来学习价值函数(在许多其他游戏甚至国际象棋中也是如此,尽管学习在1997年首次击败世界冠军的程序中并没有发挥重要作用)。 Also important was the use of learning by self play to learn a value function (as it was in many other games and even in chess, although learning did not play a big role in the 1997 program that first beat a world champion). 自我对弈学习,以及一般的学习,就像搜索一样,它使得大规模计算力得以发挥作用。 Learning by self play, and learning in general, is like search in that it enables massive computation to be brought to bear. 搜索和学习是人工智能研究中利用大量计算力的两类最重要的技术。 Search and learning are the two most important classes of techniques for utilizing massive amounts of computation in AI research. 在计算机围棋中,就像在计算机国际象棋中一样,研究人员最初的努力是利用人类的理解(这样就需要更少的搜索),只有在很久以后,通过拥抱搜索和学习才取得了更大的成功。 In computer Go, as in computer chess, researchers' initial effort was directed towards utilizing human understanding (so that less search was needed) and only much later was much greater success had by embracing search and learning. 在语音识别中,20世纪70年代有一场由DARPA赞助的早期竞赛。 In speech recognition, there was an early competition, sponsored by DARPA, in the 1970s. 参赛者包括许多利用人类知识的特殊方法——关于单词、音素、人类声道等的知识。 Entrants included a host of special methods that took advantage of human knowledge---knowledge of words, of phonemes, of the human vocal tract, etc. 另一方面是更具统计性质的新方法,它们基于隐马尔可夫模型(HMMs)进行更多的计算。 On the other side were newer methods that were more statistical in nature and did much more computation, based on hidden Markov models (HMMs). 再一次,统计方法战胜了基于人类知识的方法。 Again, the statistical methods won out over the human-knowledge-based methods. 这导致了整个自然语言处理领域的重大变化,在几十年的时间里逐渐地,统计和计算开始主导这个领域。 This led to a major change in all of natural language processing, gradually over decades, where statistics and computation came to dominate the field. 深度学习在语音识别中的最近兴起是这个一致方向上的最新一步。 The recent rise of deep learning in speech recognition is the most recent step in this consistent direction. 深度学习方法更少依赖人类知识,使用更多的计算,结合在庞大训练集上的学习,产生了显著更好的语音识别系统。 Deep learning methods rely even less on human knowledge, and use even more computation, together with learning on huge training sets, to produce dramatically better speech recognition systems. 就像在游戏中一样,研究人员总是试图制造按照他们认为自己思维方式工作的系统——他们试图将那些知识放入他们的系统中——但这最终被证明是适得其反的。 当通过摩尔定律,大规模计算变得可用并找到了充分利用它的方法时,这是研究人员时间的巨大浪费。 As in the games, researchers always tried to make systems that worked the way the researchers thought their own minds worked---they tried to put that knowledge in their systems---but it proved ultimately counterproductive, and a colossal waste of researcher's time, when, through Moore's law, massive computation became available and a means was found to put it to good use. 在计算机视觉中,也有类似的模式。 In computer vision, there has been a similar pattern. 早期方法将视觉理解为搜索边缘、广义圆柱体,或者用SIFT特征来理解。 Early methods conceived of vision as searching for edges, or generalized cylinders, or in terms of SIFT features. 但今天所有这些都被抛弃了。 But today all this is discarded. 现代深度学习神经网络只使用卷积和某些不变性的概念,表现要好得多。 Modern deep-learning neural networks use only the notions of convolution and certain kinds of invariances, and perform much better. 这是一个重要的教训。 This is a big lesson. 作为一个领域,我们仍然没有彻底学会它,因为我们还在继续犯同样的错误。 As a field, we still have not thoroughly learned it, as we are continuing to make the same kind of mistakes. 要看到这一点,并有效地抵制它,我们必须理解这些错误的吸引力。 To see this, and to effectively resist it, we have to understand the appeal of these mistakes. 我们必须学会这个苦涩的教训:将我们认为自己如何思考的方式内置进去,从长远来看是行不通的。 We have to learn the bitter lesson that building in how we think we think does not work in the long run. 苦涩的教训基于历史观察: 1)人工智能研究人员经常试图将知识构建到他们的智能体中。 2)这在短期内总是有帮助的,并且对研究人员个人来说是令人满意的。 3)从长远来看,它会达到瓶颈,甚至阻碍进一步的进展, 4)突破性进展最终通过基于搜索和学习扩展计算的相反方法到来。 The bitter lesson is based on the historical observations that 1) AI researchers have often tried to build knowledge into their agents, 2) this always helps in the short term, and is personally satisfying to the researcher, but 3) in the long run it plateaus and even inhibits further progress, and 4) breakthrough progress eventually arrives by an opposing approach based on scaling computation by search and learning. 最终的成功带有苦涩,而且往往没有完全消化,因为这是对受青睐的、以人为中心的方法的胜利。 The eventual success is tinged with bitterness, and often incompletely digested, because it is success over a favored, human-centric approach. 从苦涩的教训中应该学到的一件事是通用方法的巨大力量,这些方法即使在可用计算变得非常庞大时,仍能随着计算的增加而继续扩展。 One thing that should be learned from the bitter lesson is the great power of general purpose methods, of methods that continue to scale with increased computation even as the available computation becomes very great. 似乎能以这种方式任意扩展的两种方法是搜索和学习。 The two methods that seem to scale arbitrarily in this way are search and learning. 从苦涩的教训中要学到的第二个要点是,思维的实际内容是极其、无可救药地复杂的; 我们应该停止试图找到思考思维内容的简单方法,比如思考空间、对象、多个智能体或对称性的简单方法。 The second general point to be learned from the bitter lesson is that the actual contents of minds are tremendously, irredeemably complex; we should stop trying to find simple ways to think about the contents of minds, such as simple ways to think about space, objects, multiple agents, or symmetries. 所有这些都是任意的、内在复杂的外部世界的一部分。 All these are part of the arbitrary, intrinsically-complex, outside world. 它们不应该被内置,因为它们的复杂性是无穷无尽的; 相反,我们应该只内置能够发现和捕获这种任意复杂性的元方法。 They are not what should be built in, as their complexity is endless; instead we should build in only the meta-methods that can find and capture this arbitrary complexity. 这些方法的关键是它们能够找到好的近似,但对它们的搜索应该由我们的方法来完成,而不是由我们来完成。 Essential to these methods is that they can find good approximations, but the search for them should be by our methods, not by us. 我们想要的是能够像我们一样发现的人工智能智能体,而不是包含我们已经发现的东西的智能体。 We want AI agents that can discover like we can, not which contain what we have discovered. 内置我们的发现只会让我们更难看清发现过程是如何完成的。 Building in our discoveries only makes it harder to see how the discovering process can be done. ---- AI总结提炼 1. 主要教训:过去70年的AI研究表明,利用大规模计算力的通用方法(搜索和学习)远比嵌入人类知识的方法更有效。 2. 根本原因:摩尔定律使计算成本持续下降,计算力呈指数级增长。 3. 历史案例:无论是国际象棋、围棋、语音识别还是计算机视觉,最初基于人类专家知识的方法都输给了后来基于大规模计算的简单方法。 4. 研究者的误区:研究人员总想把自己的思维方式编程到AI中,这在短期有效且令人满意,但长期会成为瓶颈。 5. "苦涩"的原因:这个教训之所以"苦涩",是因为研究者不愿接受自己精心设计的、体现人类智慧的方法输给了"暴力"计算。 6. 正确方向:应该构建能够自主发现和学习的AI系统,而不是把人类已有的知识硬编码进去。 7. 核心启示:不要试图告诉AI如何思考,而要给它提供学习和搜索的能力,让它自己去发现规律。
硅谷AI大转弯!从“比智商”到“比应用”,Token消耗暴增20%的背后 42章经播客总结:硅谷 AI大转弯与二级市场的牛市|对谈莫傑麟 今年硅谷AI最显著的变化: 行业从"比谁的模型更聪明"转向"比谁能把智能用得更好"。 过去盯Scaling Law(模型规模增长规律),现在所有人都在看Token消耗量这个新指标。 它像移动互联网时代的"流量",成为衡量AI发展的核心标准。 最让人惊讶的是Token消耗的增速: 2025年二季度到三季度增长超过20%,这个数字让人想起移动互联网爆发期的增长。 GPT-5发布后,整个Token消耗曲线更是陡峭上扬,OpenAI、Anthropic这些头部的消耗量增长最快。 ① 行业认知转变 1)从AGI幻想到实用主义 过去总问"模型什么时候能达到人类水平"。 现在终于清醒,就算模型能力不再提升,现有智能的应用场景已经足够释放巨大价值。 企业端:解放生产力、替代人力、提高稳定性。 消费者:替代搜索、提升工作效率。 2)从技术比拼到整合能力 GPT-5是个典型例子,不再证明自己比别人"智商高"。 而是把推理优化、前端界面、开发者生态这些Infra能力整合进来。 用莫傑麟的话说:"GPT-5标志着AI竞争进入了国内创业者的舒适区" 拼工程落地、拼系统整合、拼效率优化,这些正是国内团队强项! 3)从单一环节到产业协同 AI产业已形成清晰分工: 1. 底层模型:OpenAI等 2. 基础设施infra:推理加速、工具链 3. 应用层:垂直场景落地 边界正在模糊 模型公司开始做产品,比如OpenAI的GPT-5集成多种功能 应用公司也在做技术,Manus自建Sandbox等。 ② Infra成了新战场 1)芯片与硬件层 英伟达依然强势,但AMD、AWS Trainium等替代方案正在崛起。 国内的寒武纪等今年股价表现甚至超过英伟达,说明市场看好多元化的硬件选择。 2)推理优化层 硅谷最火的两家公司:Together AI和Fireworks AI。 帮应用公司做推理加速和模型切换。 特别是Anthropic停止给Windsurf开放Claude API后。 这两家成了应用公司的"救命稻草"(备份),帮它们实现模型备份和成本优化。 3)Agent基础设施层 代表公司是Browserbase,解决Agent执行中的环境一致性问题。 核心是让AI能可靠地完成实际任务,比如自动订机票、处理文档。 4)Context层 应用公司的核心竞争力,比如法律AI公司Harvey积累的法律知识库,医疗AI公司的临床数据处理经验。 这层最考验行业理解,短期内很难被第三方替代。 ③ 二级市场:英伟达还能涨多久? 英伟达股价持续走高的核心逻辑已经变了。 从"训练需求驱动"转向"推理需求驱动"。 虽然训练需求有周期性,但推理需求随着Token消耗增长一直在攀升。 不过要警惕两个风险: 替代方案崛起:AMD、AWS、自研ASIC正在侵蚀英伟达的市场份额 成本优化压力:所有公司都在想办法降低Token成本,长期会影响芯片需求。 除了英伟达,AMD、C3. ai、Palantir今年表现都很亮眼。 特别值得关注的是ServiceNow。 这家做企业Workflow的公司通过AI转型,从咨询服务商变成了AI解决方案提供商,股价飙升。 ④ 一级市场:疯狂抢人,估值上天 硅谷一级市场现在是"全明星团队溢价":Thinking Machine,上来就估值上百亿。(前OpenAI首席技术官Mira Murati创办) 因为投资人看到Anthropic、OpenAI早期投资者都赚翻了。 Meta掀起抢人大战,据传给顶级AI专家开出一亿美金的天价薪酬包(虽然实际结构很复杂)。 泡沫也很明显: 模型公司估值越来越夸张,应用层同质化严重。 美国AI coding领域已经卷成"国内早年千团大战"的架势,大厂小厂挤在一起,并购频发。 ⑤ 中美市场的鲜明对比 美国市场 To B应用爆发,垂直场景落地快。 法律AI公司Harvey、医疗AI公司的ARR(年度经常性收入)增速惊人,企业客户付费意愿强,AI提效5%就能带来50亿美金的市场价值。 中国市场 To C创新活跃,DeepSeek、Manus、Genspark这些产品增速迅猛,但To B市场仍在培育中。 国内创业者更擅长做"套壳创新",基于GPT-4、Claude做垂直场景应用,但缺乏美国那种行业深耕的耐心。 ⑥ 最值得思考的五个问题 GPT-5的真正价值在哪? 可能不是技术突破,而是把AI工业化的基础设施搭好了。 就像iPhone不只是更好的手机,而是重新定义了移动互联网生态。 散户正在改变市场规则? 美股这轮反弹中,散户表现出惊人的凝聚力。 他们通过Reddit等社区形成共识,长期持有AI核心资产(如英伟达、Palantir),反而比机构更坚定。 多模态会是下一个爆点吗? 视频Token消耗增速已经超过文字! 当Veo3这样的视频模型成本降低后。 可能会出现"多模态版Manus",彻底改变内容创作方式。 中国AI的机会在哪里? 短期看海外市场(付费能力强),长期看国内Token成本下降后的大规模应用。 假如当Token成本接近零时,抖音、微信这些超级App会如何重构? AI泡沫会破吗? 现在的泡沫是"建设性泡沫"。 不是骗局,而是给了创业者和投资人足够的资源去探索。 只要Token消耗持续增长,这个泡沫就会慢慢转化为真实价值。
AI领域收入增长最快的创业公司竟然是做数据标注? 42章经总结:Mercor 高速增长的秘诀与其中的聪明人|对谈 Mercor 首位中国员工虞快 Mercor原本是一家AI招聘公司,现在是硅谷数据标注明星创业公司,他们是如何崛起的? 一家由三个21岁高中辩论队成员创立的公司,在短短11个月内就实现了从100万到1亿美金的年收入飞跃,创造了历史最快增长纪录! 当虞快加入时,公司仅50人,如今已扩张到100多人,绝大多数团队成员在美国,平均年龄只有22岁,一半人都有创业经历。 "现在每个月的收入增长百分之五十" ① 业务转型:从AI招聘到专家标注平台 Mercor最初想做"万能招聘平台",但敏锐抓住了AI行业最痛的痛点 当模型能力提升后,普通标注人员已无法满足需求。 于是,他们转型为AI公司提供高质量专家资源。 这些专家不仅做标注,更重要的是定义数据标注标准,成为模型的"产品需求文档(PRD)"制定者。 与传统数据标注公司区别: Scale AI等传统公司:依赖低成本劳动力(如柬埔寨、越南)做基础标注。 Mercor:招募高专业度兼职专家,如医生、律师、软件工程师等,从简单标注转向复杂的模型评估(evaluation)和基准测试(benchmark) ② 商业模式解析 Mercor本质上解决的是高端劳动力市场的匹配问题。 他们连接AI公司与各领域专家,这些专家主要以兼职形式为AI模型定义数据标准和评估指标,时薪差异巨大: 普通音频标注员:21美元/小时 软件工程师:100-200美元/小时 皮肤外科医生:高达400美元/小时 ③ 业务流程拆解 1️⃣ 获客渠道 推荐计划:占新用户注册的50%以上 主动招聘:AI辅助搜索和招募 广告投放:精准定位目标人群 2️⃣ AI面试系统 数字人面试官进行视频面试 问题由AI根据简历和岗位要求自动生成 面试时长通常为20-30分钟 招聘方可查看带字幕的面试视频,并可点击跳转到特定回答 3️⃣ 智能匹配与验证 AI评估系统综合简历和面试表现打分。 多维度匹配算法排序候选人 防欺诈机制:ID验证、背景调查、简历真实性核查 质量控制:同一问题多人标注比对,异常结果自动标记 ④ 数据标注市场洞察 当前数据标注市场规模约50-100亿美元,三大趋势: 1)市场集中度提升:AI公司倾向于与2-3家主要供应商合作,避免单一依赖风险。 2)服务高端化:随着模型能力增强,普通标注员被专业领域专家取代。 3)评估标准重要性提升:Mercor定位为"评估服务提供商",其专家定义的评估标准成为模型迭代的PRD ⑤ 行业竞争格局 Scale AI:被Meta收购后业务下滑,客户担忧数据安全 Surge AI:风格低调务实,被视为Mercor的主要竞争对手 Mercor差异化优势:专家质量控制体系 ⑥ Mercor的成功密码 1)闪电决策:不依赖复杂数据分析,更多依靠创始人和核心团队的直觉快速决策。 2)极致执行:"说到做到"的文化,承诺的目标一定达成 3)疯狂工作:团队平均每天工作16小时(早7:30-凌晨1:00),但这是自发而非强制的。 4)人才密度:招聘极富主动性(agency)的人才,工程师产品感极强,无需专职PM ⑦ 招聘哲学 招聘工程师时,除技术能力外,最看重"agency"(主动性),通过三个问题评估: 1)描述任务时需要多详细? 2)能独立工作多久? 3)能否克服困难达成结果? 一个有趣细节:如果候选人电脑上没有编程IDE,基本会被直接淘汰——"你是软件工程师,电脑里却没有编程环境?" ⑧ 中美创业生态对比 创业文化:美国对失败容忍度高,创业是常态选择;中国创业失败对职业生涯打击较大 人才特点:美国创业者更早接触商业训练,演讲和销售能力从小培养。 工作强度:硅谷早期创业公司同样"卷",Mercor团队常工作至凌晨,但驱动力更多来自高速增长而非外部压力 年龄差异:美国更接受年轻创始人,Mercor创始团队平均年龄21岁,公司平均年龄22岁
真正AI Native公司的实践探索经验。 最新一期42章经播客总结:组织能力才是 AI 公司真正的壁垒 | 对谈 Palona AI 联创任川 ① AI重构研发流程:效率提升不止十倍 传统互联网公司,代码审查平均要1-2天,而在Palona AI,时间被压缩10分钟。 秘诀是用CodeRabbit工具,完全让AI负责代码审查,半年多的实践证明效率和效果都远超传统方式。 ② AI原生工作流三大原则 1) 默认让AI做所有研发工作 从写文档、写测试、写设计文档到写代码、审查和监控,全流程AI优先。 只有AI无法完成时,人才会介入。 2) Claude Code是最佳AI编程工具 尽管国内受限,但它能力最强,支持二次开发,正如刘小排说:“只要有SOP,就没有Claude Code无法完成的任务”。 3)减少人机交互,消除瓶颈 传统"拉通对齐"会议往往是效率杀手,AI时代需要将上下文直接融入代码库,实现自动同步。 ③ AI时代的新人才标准: 1)上下文提供者 Context Provider 2)快速学习者 Fast Learner 3)创造者 Builder 人不是使用AI的工具,而是为AI提供上下文的赋能者。 Context Provider:提供AI所缺的行业知识和上下文。 Fast Learner:快速掌握"最少必要知识",重点不是比AI更聪明,而是知道如何引导AI发挥最大潜力。 Builder:对最终结果负责,全流程掌控。 避免因分工导致的上下文传递损耗,一个人就能端到端完成任务。 ④ 组织形态的彻底重塑:按结果分工而非流程 Palona AI的20人团队完全没有全职PM,所有人都直接为业务结果负责: 1)按结果而非流程分工 团队分为商家体验组和消费者体验组,而非前端、后端等技术职能划分。 工程师可以直接修改任何影响其负责结果的代码,无需跨团队协调。 2)工程团队为核心,速度优先 工程师直接参与产品设计、市场沟通,先做出60分产品快速上线。 专业设计师再在此基础上优化至80-100分。 ⑤ 未来组织可能形态 少量核心合伙人+大量专业合同工 核心成员享受合伙人级待遇,同时灵活调用各领域专家资源。 ⑥ 招聘与人才筛选 1)采用Take Home项目测试 要求两天内完成一个必须使用AI才能完成的任务 现场测试:一小时内使用AI理解并改进一个充满"陷阱"的陌生项目 2)团队协作: 会议集中在每天3-4小时,其余时间专注独立工作。 工程师直接拜访客户,获取一手需求,跳过传统的"销售→PM→工程师"传递链条