时政
财经
科技
虚拟货币
其他
登录
向阳乔木
关注
统计数据
845
文章
0
粉丝
0
获赞
11560
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
向阳乔木
4周前
OpenAI希望其他所有应用程序都能在它上面构建。 在消费端,可能就是让ChatGPT去帮我东西、叫Uber。 现在有两个问题: ① 登录问题,第三方网站会监测和屏蔽agent登录; ② 商家会非常抵触,因为他们希望用户直接来自己平台。 比如亚马逊,只有人过去了,才能在我买牙膏的时候推荐买牙刷、牙线。 而且亚马逊今天有超过700亿广告收入,如果换成agent去购买,这个广告收入还收不收得上来也是问题。 --- 看来豆包手机被封这也是原因之一? 现有的电商平台不欢迎Agent,不止要卖东西,还要赚广告费的。
分享
评论 0
0
向阳乔木
4周前
我发现一个奇怪的现象。 即使Prompt写的再完备,第一次生成的质量总是没到AI上限水平。 让AI反思,查漏补缺,总是会有质量提升。 可能是对话中有了上下文的原因? 但迭代次数不能多,否则就开始出废话。
分享
评论 0
0
向阳乔木
4周前
X的搜索不是很烂吗?很难找到自己发旧帖子。 有了Grok后,完全不用安装第三方插件,一方面有些插件收费,另一方面可能有安全风险。 先跟Grok说,我的 x 账号是什么。 再让它找特定关键词内容,并要求返链接。 第一步让Grok记住账号,不然有时它会理解错,全网找。
分享
评论 0
0
向阳乔木
1个月前
希区柯克:好故事就像人生,只是删掉了无聊的部分。 被打乱生活才会出现故事,有惊讶值才是故事,记忆很喜欢违背预期的事。 没有违背或超预期,就很难吸引注意力。 新东西自带“惊讶值”,过了阈值才会被大脑提醒。 求新,求热,是本能。
分享
评论 0
0
向阳乔木
1个月前
按KK的一千铁杆粉丝理论,自己远远不够。 如何判断什么是铁杆粉丝?
分享
评论 0
0
向阳乔木
1个月前
发现自己挺喜欢喊一群朋友体验新AI工具。 最近帮refly、remio、medeo等AI工具建了内测用户群。 各个群活跃和反馈都不错。 助人为乐,与人为善,一定会有回报。 可能不一定是钱而已。
分享
评论 0
0
向阳乔木
1个月前
MacOS 更新后把之前的经典dashboard给改了。 显示了一大堆iOS上装的手机应用,真垃圾啊。 反而,自己Mac安装的应用很难找。 产品经理咋想的,不能为了打通而打通吧,不考虑用户需求场景。 下单买了 X 友的LaunchOS软件,恢复原来的样式和功能。
分享
评论 0
0
向阳乔木
1个月前
当 Google 创始人谢尔盖·布林回到斯坦福,这个Youtube视频是3天前的。 但今天看到很多老外的时间线在放各种切片,干脆找过来,让AI总结重写一遍,帮大家节省时间。 --- 斯坦福工程学院百年庆典的最后一场活动。 Sergey Brin 回来了。 不像西装革履的成功人士回母校演讲,更像是一个老朋友回来聊天。 他坐在台上,聊起 1993 年刚到斯坦福读博时的事。 第一句话就是:"你们把我夸得太过了,其实有巨大的运气成分。" 一所学校的一百年 1891 年斯坦福建校时就有工程教育,化学、电气、机械、采矿冶金四个系。 1925 年,这四个系合并成立工程学院,到今天正好一百年。 第三任院长 Fred Terman 是个关键人物。 他指导了 William Hewlett 和 David Packard,也就是惠普的两位创始人。 他还帮助建立了斯坦福工业园区,那个后来叫做硅谷的地方,就是从那里长出来的。 院长 Jennifer Widom 说了个细节:台上展示的那台服务器,是运行 PageRank 算法的第一台服务器。 就是那个改变了互联网的算法。 还有一个容易被忽略的事实:Google 直接来源于美国国家科学基金会(NSF)资助的数字图书馆项目。 Sergey 和 Larry 就是在那个项目里开始研究网页链接结构的。 所以你怀疑联邦科研经费有没有用,Google 就是答案。 那个会撬锁的博士生 Sergey 说他刚到斯坦福时,在老旧的 Margaret Jacks Hall 办公。 那种老建筑,木门吱吱响的那种。 他在那儿学会了撬锁。 为什么要撬锁? 因为他想研究怎么把碎纸机碎掉的文件重新拼起来。 这个项目最后没做成,但没人告诉他不能做这个。 导师们偶尔问问他在干嘛,但从不限制他。 他的导师 Hector Garcia-Molina 和 Jeff Ullman,都是那种给学生极大自由的人。 Sergey 说 Hector 是个"超级好人",语气里有真实的怀念。 后来搬到新的盖茨楼,用上了电子门锁。 Sergey 发现自己撬不开了,但他注意到一个细节:那些电子锁其实没联网,锁会相信钥匙告诉它的信息。 于是在大楼还在装修的时候,他爬上脚手架,从阳台进了管理钥匙的办公室,给自己做了把万能钥匙。 四楼的脚手架,他说:"我当时还是个孩子,判断力就那样。" 院长在台下补充:"四楼啊。"语气里有种"你当年可真敢"的意思。 这和创立 Google 有什么关系? 感觉这种环境给了他试错的自由,没人管他在做什么奇怪的事。 那个时代的"随便试试" 90 年代中期的互联网,是个什么都能试的地方。 Sergey 的第一个赚钱想法是在线订披萨。 听起来很正常对吧?当时绝对是个疯狂的主意。 更疯狂的是,他在页面顶部放了个可口可乐广告,当时觉得"哈哈,网上放广告多好笑"。 现在回头看,很真实, 那就是后来互联网广告的雏形。 但这个项目彻底失败了。 因为披萨店虽然有传真机,但他们不怎么查传真。 那个时代的氛围:每个计算机系的学生都懂互联网怎么运作,都能快速搭个网站,大家都在网上乱试东西。 Larry Page 在研究网页的链接结构,Sergey 在做数据挖掘,两个人碰到一起,发现这东西对搜索挺有用。 他们给算法起名叫 BackRub (背部按摩?),后来改成了 PageRank。 然后呢?他们没想着创业。 他们试着把技术授权给互联网公司。 有一次跟 Excite 谈,开价 160 万美元。 15 分钟后收到回复说"那是一大笔钱,但好的",他们激动坏了。 结果发现是朋友 Scott 伪造的邮件,因为那时候你可以用任何人的名义发邮件。 Scott 笑得要死,Sergey 和 Larry 尴尬得要命。 最后是导师 Jeff Ullman 说:要不你试试看,不行再回来读博。 Sergey 的父母很失望,但导师很开放。 Sergey 说他技术上现在还是休学状态,可能还会回来😁 那些做对的事和做错的事 Google 现在市值 4 万亿美元,每分钟处理 1000 万次搜索。 但 Sergey 说他们也搞砸了很多事。 比如 8 年前发表了 Transformer 论文,那个现在所有大语言模型的基础架构。 但他们没当回事,没投入足够的算力,也不敢把聊天机器人给用户用,因为它会说蠢话。 结果 OpenAI 抓住了机会。 而且讽刺的是,OpenAI 的关键人物 Ilya Sutskever 原本就是从 Google 出去的。 Sergey 很坦率:"我们搞砸了,我们应该更认真对待,应该投入更多。" 比如 Google Glass。 Sergey 承认自己当时觉得"我是下一个乔布斯",结果在产品还没打磨好的时候就搞了跳伞和飞艇的炫酷发布会。 "每个人都觉得自己是下一个乔布斯,但乔布斯真的很独特。" 他说这话的时候,语气里有自嘲。 他总结了教训: 别在产品真正成熟之前,就让外界期待值和开支都滚雪球般增长。 你会被时间线绑架,没法给自己足够的时间把事情做好。 不过他们也做对了一些事: 从一开始就招了很多 PhD,建立了学术化的研发文化。 Sergey 记得 Urs Hölzle 来面试斯坦福教职没通过,他马上问"你明天能来上班吗?" 因为他在招聘委员会见过这个人,知道他有多厉害。 还有 Jeff Dean。 他大学时就在研究神经网络和治疗第三世界疾病,16 岁就做这些疯狂的事。 他对神经网络有热情,Sergey 就让他放手去做。 "他告诉我'我们能区分猫和狗了',我说'哦,挺好的'。" Sergey 笑着说 ,"但你得信任你的技术人员。" 那就是后来的 Google Brain,神经网络研究的开端。 还有 TPU 芯片,12 年前就开始做了。 一开始用 GPU,然后用 FPGA,最后决定自己做芯片。 现在已经迭代了无数代。 这些投入在 10 多年后开始回报。 深度学习技术需要时间,但 Google 碰巧在那个方向上押注了。 Sergey 说:"我们有点走运,因为深度学习技术变得越来越重要了。" 关于 AI 的真话 主持人问 Sergey 对 AI 的看法,他说了句很有意思的话: "AI 写代码的时候,有时候会出错,而且是很严重的错误。 但如果 AI 在比较文学论文里写错一句话,后果没那么大。 所以老实说,AI 做创意性的事情反而更容易。" 然后他赶紧补充:"我不是不尊重比较文学专业。" 有学生问该不该继续选计算机专业。 Sergey 说:别因为 AI 会写代码就不学计算机。 AI 在很多事情上都挺厉害,写代码只是碰巧有市场价值。 而且更好的代码能做出更好的 AI。 他建议学生多用 AI,但不是让 AI 替你做事。 他自己用 AI 的方式是:让它给 5 个想法,其中 3 个肯定是垃圾,但有 2 个会有点意思,然后你再去打磨。 他还说了个细节:他现在开车的时候会用 Gemini Live 聊天,问各种问题。 比如"我要建一个数据中心,需要几百兆瓦的电力,成本是多少"。 但他马上说:现在公开版本用的是老模型,有点尴尬。等几周我们会发布我现在用的版本。 这就是 Sergey 的风格,一边推销产品,一边吐槽自家产品。 关于 AI 会不会超越人类,他说了问题:"智能有天花板吗?不只是 AI 能不能做人类能做的事,还有 AI 能做哪些人类做不到的事?" 人类进化了几十万年,灵长类进化了几百万年。 但那个过程太慢了,跟现在 AI 的进化速度比起来。 主持人问:我们准备好迎接这个速度了吗? Sergey 说:"目前为止,AI 还会周期性地犯蠢,所以你总是要监督它。但偶尔它会给你惊艳的想法。" 他觉得 AI 最大的价值是让个人变得更有能力。 你不可能随时有各个领域的专家在身边,但你可以随时问 AI。 虽然它给的答案可能只有 80-90% 靠谱,但作为起点已经够了。 有学生问:工业界现在这么强,学术界到工业界的管道还重要吗? 这是个好问题。 Google 就是从学术项目里长出来的,但现在 Google 自己就在做最前沿的研究。 Sergey 停顿了一下,说:"我不知道。" 他解释说,以前从新想法到商业价值可能要几十年。 学术界可以慢慢研究,申请经费,花几十年时间让想法成熟,然后才进入工业界。 但如果这个时间线压缩了呢? 他举了量子计算的例子。 80 年代 Feynman 提出量子计算的概念,现在有一堆公司在做,也有大学实验室在尝试新方法。 如果你在做超导量子比特(Google 在做的)或者离子阱(一些创业公司在做的),可能不需要在大学里待太久。 但如果你有完全不同的新方法,可能需要在大学里"腌制"几年。 然后他说:顶级公司现在投入的基础研究越来越多,这些投资在 AI 时代开始回报了。 所以比例会变化,但我觉得还是有些东西需要那种十年级别的纯研究,公司可能不愿意等那么久。 院长 Jennifer 补充说:大学还有一个优势,就是我们习惯了在算力不足的情况下工作。 我们的算力远远比不上公司,所以我们会研究怎么用更少的资源做更多的事。 这也是一种创新。 校长 John Levin 问他,如果你是工程学院院长,会怎么规划下一个百年? Sergey 停顿了一下,说:"我要重新思考大学是什么意思。" 他说这话的时候自己都笑了:"我知道这听起来很烦人,这是 Larry 会说的那种话,我通常会被他烦到。" 台下一片笑声。 但他接着说:信息传播得很快了,任何人都能在线学习,看 YouTube 视频,跟 AI 对话。 MIT 很早就搞了开放课程,Coursera、Udacity 这些平台也起来了。 那么把人集中在一个地理位置,建那些漂亮的教学楼,这件事的意义是什么? 他也承认,人们在一起工作确实更好。 Google 也在努力让员工回办公室,因为面对面协作效果更好。 但那是在特定规模下。 100 个人在一起挺好,但他们不一定要和另外 100 个人在同一个地方。 而且现在越来越多的人,不管有没有学位,都能在某个奇怪的角落里自己搞出东西来。 Google 招了很多学术明星,但也招了很多连本科学位都没有的人。 这个回答比主持人预期的要深。 校长说:"你提出的是关于大学最根本的问题。" 院长开玩笑说:"这听起来更像是校长的工作,不是院长的。" Sergey 笑了:"抱歉,我说得太宏观了。" 但这确实是个好问题。 知识的创造和传播方式在改变,那种把人才密集在一个地方的模式,还会是未来一百年的答案吗? 有学生问:哪种新兴技术被严重低估了? Sergey 想了想,说:"显然不能说 AI,因为很难说它被低估。虽然它可能还是被低估了。" 他提到量子计算,但说自己不会把宝全押在上面。 因为我们连 P 是否等于 NP 都不知道,量子算法也只对特定的结构化问题有效。 未知数太多。 然后他说:"可能是 AI 和量子计算在材料科学上的应用。 如果我们能发现更好的材料,能做的事情就没有上限了。" 校长 John 说他也想到了材料科学,还有分子生物学。 "现在聚光灯都在 AI 上,但生物学领域也在发生巨大的革命,我们不应该让聚光灯离开那里。" 院长 Jennifer 同意:"合成生物学正在发生非常激动人心的事情。我们需要把聚光灯打得更宽一点。" 有学生问了个私人问题:你在建立 Google 的过程中,改变了哪些根深蒂固的信念? Sergey 想了很久,然后讲了个故事。 他出生在莫斯科,苏联时期。 很穷,所有人都很穷。 一家四口住在 400 平方英尺的公寓里,他、父母、祖母。 每天要爬五层楼梯。 他说自己当时根本没想过外面的世界。 是他父亲在波兰参加一个会议,听说了西方世界的样子,决定移民。 这在家里引起了很大争议,但最后他们还是来了美国。 到了美国还是很穷,一无所有。 他要学新语言,交新朋友,所有东西都要重新开始。 "这是个很艰难的转变,但也是一种觉醒。" 后来来斯坦福读博,又是一次类似的经历。 教授们信任他,给他自由,加州那种思想上的解放感。 虽然他说"我们现在有点在失去这种东西",但没展开讲。 他说:"我的经历是,那些当时看起来很痛苦的转变,后来都有了回报。那些挑战性的转变是值得的。" 所以他没有直接回答"改变了什么信念",而是说他经历过很多次世界观的扩张。 每一次都很难,但每一次都让他看到了更大的可能性。 有学生问 Sergey,在取得这么大成功之后,你怎么定义好的生活? 他说他很感激能和家人在一起,他的一个孩子和女朋友都在现场。 能和他们度过高质量的时间。 但他也说了另一件事:他在疫情前退休了,想着可以坐在咖啡馆里学物理。 物理是他当时的热情所在。 结果疫情来了,咖啡馆都关了。 他发现自己开始"螺旋式下降",感觉自己不再敏锐。 于是他回到办公室。 一开始办公室也关着,但几个月后有些人开始回去,他也开始偶尔去。 然后越来越多时间花在一个项目上,那个项目后来叫做 Gemini。 "能有技术性的、创造性的出口,这很重要。如果我一直退休,那会是个大错误。" 这可能是整场对话里最真实的时刻。 一个创立了 4 万亿美元公司的人,不是在谈财富自由,而是在说如果不做有挑战的事情,他会感觉自己在退化。 好的生活不是退休享福,是有家人,有热情,有能让你保持敏锐的挑战。 有个大一新生说,来斯坦福之前很害怕,觉得这里每个人都超级聪明。 但认识大家之后发现,他们都是普通人,很容易相处。 他问三位嘉宾:你们被视为世界上最好的领导者和创新者,但有什么事情能让我们觉得你们也很普通、很人性化? Sergey 笑了:"好,我要说一个,然后我会试图撤回它。" "有时候我不好意思问一些我不懂的事,但我还是会问。" 然后他转向那个学生:"等等,管理科学与工程是什么?" 台下一片笑声。 学生解释说那是他的专业。 Sergey:"那是这门课吗?" 院长:"那是一个系。" Sergey:"但你们学什么?具体上什么课?" 院长解释说那是工业工程、运筹学和工程经济系统三个系的合并,已经 25 周年了。 Sergey:"哦,好的,好的。" "所以我的尴尬真相是,我确实不知道这个。但我很高兴我问了。" 校长 John 说:"让我显得亲民的是,我能给 Sergey Brin 解释东西,而他会认真听。" 最后一个问题是:你怎么保持学习,读什么书,听什么播客? Sergey 说:"好,我会试着不做广告。" 然后他说他在车里经常用 Gemini Live 对话,问各种问题。" 他也听播客,"All In" 是他最喜欢的之一。 他还去佛罗里达见了 Ben Shapiro,参观了他的工作室。 "但我更喜欢互动式的讨论,所以我在开车时跟 AI 聊天。虽然听起来有点尴尬。" 校长说:"这是对未来的一瞥。我们可能很快都会这么做。" Sergey 离开的时候,学生们起立鼓掌。
分享
评论 0
0
向阳乔木
1个月前
Yann LeCun:为什么我要在65岁离开Meta,去做一件"所有人都觉得错"的事 上周,深度学习三巨头之一的Yann LeCun坐下来接受了一次长谈。 这个拿了图灵奖、65岁本该退休享福的人,却选择离开工作了12年的Meta,在巴黎创立了一家叫AMI(Advanced Machine Intelligence)的新公司。 他要做的事情,和硅谷所有大厂正在押注的方向完全相反。 当OpenAI、Google、Anthropic都在疯狂堆LLM(大语言模型)的时候,Yann说:这条路走不通,我们需要世界模型。 当所有人都在谈AGI还有几年到来的时候,Yann说:你们都被骗了,最乐观也要5到10年才能到狗的智能水平。 当AI末日论者说机器会统治人类的时候,Yann说:这是完全的妄想症。 为什么要在这个时候离开Meta? Yann给出的理由很直接:Meta正在变得封闭。 他在Meta建立的FAIR(Facebook AI Research)曾经是业界最开放的实验室,所有研究都发论文,所有代码都开源。PyTorch就是从这里出来的。 这种开放文化曾经逼得Google也不得不变得更开放。 但现在情况变了。 OpenAI几年前就开始闭门造车,Google跟着关上了门,现在连Meta也在往这个方向走。 FAIR被要求做更短期的项目,发更少的论文,更多地配合LLM团队。 "你不能把不发表的东西叫研究," Yann说,"否则你很容易被自己骗了。" 他见过太多大公司内部的"自嗨项目",一群人关起门来觉得自己做出了革命性突破,结果根本不知道外面的人早就做得更好。 更重要的是,如果你告诉科学家"来我们这工作吧,但你不能说你在做什么,也许5年后会有产品影响",没人会有动力做真正的突破。 所以他决定出来。 但为什么现在创业成为可能? 这里有个很有意思的现象。 以前,只有大公司才能做长期AI研究。贝尔实验室靠AT&T的电信垄断,IBM研究院靠大型机垄断,施乐PARC靠复印机垄断。 垄断带来的超额利润,才能养得起不考虑短期回报的研究团队。 但现在不一样了。 投资人对AI的期望值高到了一个前所未有的程度,他们愿意给创业公司投大钱,让团队头两年就专心做研究。 "这在以前是不可能的,"Yann说。 所以AMI的模式是:做上游研究,全部发表,但同时也做产品。 他们要做的产品,是基于世界模型的智能系统。 什么是世界模型?为什么Yann觉得这才是正道? 这是整个访谈最核心的部分。 Yann对LLM的批判非常直接:它们处理不了真实世界。 他算了一笔账: 训练一个像样的LLM,需要30万亿个token。一个token大概3个字节,所以是10的14次方字节。 这是什么概念?这是互联网上所有能找到的文本数据。 但如果换成视频呢? 10的14次方字节,按每秒2MB的压缩率算,只够15,000小时的视频。 15,000小时是什么?是YouTube上30分钟的上传量。是一个4岁小孩醒着的时间总和(4年大概16,000小时)。 同样的数据量,在视频里包含的信息远远超过文本。 而且视频里有大量冗余,这种冗余恰恰是学习的关键。 完全随机的东西你学不到任何东西,可学习的东西一定有模式,有冗余。 所以Yann的结论是:我们永远不可能只靠文本训练出人类水平的AI。 那世界模型到底是什么? 很多人以为世界模型就是"模拟器",像游戏引擎那样,把世界的每个细节都重现出来。 Yann说这个理解完全错了。 他举了个例子:计算流体力学(CFD)。 你要模拟飞机周围的气流,会把空间切成小方块,每个方块里有速度、密度、温度几个变量,然后解偏微分方程。 这已经是抽象表示了。真实世界是一个个空气分子在碰撞,但没人会去模拟每个分子,那需要的计算量是天文数字。 更底层呢?分子是原子组成的,原子是粒子组成的,粒子要用量子场论描述。 如果你真要从量子场论开始模拟我们现在这个对话,你需要一台地球那么大的量子计算机,而且只能模拟几纳秒。 所以我们怎么办?我们发明抽象。 粒子、原子、分子、蛋白质、细胞、器官、生物体、社会、生态系统,每一层都忽略了下一层的大量细节。 每个科学领域,本质上就是在某个抽象层次上做预测。 物理学家有个经典例子:一个装满气体的盒子,你可以模拟每个分子的运动,但没人这么干。 我们用PV=nRT,压强×体积=粒子数×温度。 这就是世界模型的核心思想:在抽象表示空间里做预测,只预测相关的部分。 如果我问你100年后木星在哪里,关于木星的所有信息里,你只需要6个数字:3个位置坐标,3个速度分量。其他都不重要。 为什么LLM做不到这个? LLM的问题在于,它们想预测每一个像素,每一个token。 这对于高维、连续、有噪声的数据来说,根本不可能。 你不可能在像素级别预测视频的下一帧,因为有太多不可预测的细节。 一片树叶怎么飘,一个水花怎么溅,这些都是随机的。 LLM在文本上能work,是因为文本本身就是离散的、相对低维的。 但它们在视觉任务上表现很差,所有视觉能力都是单独训练的,不是LLM本身学到的。 Yann的方案是JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)。 简单说就是: 1. 把输入X和要预测的Y都通过编码器,得到抽象表示 2. 在抽象表示空间里做预测 3. 这个表示空间自动忽略了不可预测的细节(包括噪声) 这个想法他想了很久。 一个20年的思考历程 Yann在2000年代初就开始研究无监督学习,当时的想法是用自编码器(autoencoder):输入经过编码器得到表示,再通过解码器重建输入。 但这个思路是错的。 强迫表示包含输入的所有信息,是个坏主意。 后来他们尝试了各种正则化方法:稀疏自编码器、去噪自编码器、受限玻尔兹曼机。 这些在当时都挺火,但都没真正解决问题。 2015年,Yann在NIPS(现在的NeurIPS)上做主题演讲,核心就是世界模型。 他的学生开始做视频预测。 但又犯了同样的错误:在像素级别预测。 这根本做不好。 预测是非确定性的,你需要隐变量来表示所有你不知道的东西。 他们试了很多年,效果都不理想。 转折点在5年前。 Yann的博士后Stéphane Deny尝试了一个想法: 不用对比学习(contrastive learning),而是直接最大化编码器输出的信息量。 Yann一开始觉得这不会work,因为他在80年代见过Geoffrey Hinton做类似的尝试,都失败了。 你没法直接最大化信息,因为你只能算信息的上界,不能算下界。 但居然成功了。 这个方法叫Barlow Twins。 后来他们又改进出了VICReg(Variance-Invariance-Covariance Regularization),效果更好。 最近Randall Balestriero(他也上过这个播客)和Yann一起推出了I-JEPA,用的是SigReg,保证编码器输出是各向同性的高斯分布。 现在这套方法已经比较成熟了。 为什么说LLM永远到不了AGI? Yann对硅谷现在的"LLM教"非常不客气。 "所有人都在做同一件事,因为竞争太激烈了,没人敢走岔路。" OpenAI、Meta、Google、Anthropic,所有人都在: • 扩大模型规模 • 训练更多合成数据 • 购买授权数据 • 雇几千人做RLHF • 发明新的强化学习技巧 他们相信这条路能通向超级智能。 Yann说:这是妄想,永远不会成功。 然后他们加上一些"推理"技术,本质就是让模型生成超长的思维链,生成一大堆候选输出,然后用评估函数选最好的。 "这带不了我们去任何地方。" 他说硅谷现在有一种"优越感综合症"。 前段时间DeepSeek出来,用不同的方法做出了好效果,硅谷的人都很惊讶。 "你们以为只有你们聪明吗?" 那真正的AGI要多久? Yann首先说:"通用智能"这个概念本身就是扯淡。 我们人类自以为是"通用"的,但其实超级专门化。 我们很擅长处理真实世界,很擅长社交,但下棋我们烂得一塌糊涂。机器早就比我们强了。 我们觉得自己通用,只是因为我们能想到的问题,恰好都是我们能处理的问题。 但有大量问题是我们想都想不到的。 所以不要说"通用智能",要说"人类水平智能"。 最乐观的情况:5到10年内达到狗的智能水平。 为什么是狗? 因为从狗到人类,主要就是脑容量和语言。语言其实是很小的一块,就是Broca区和Wernicke区,两小块皮层,不到100万年进化出来的。 我们已经有LLM处理语言了,可以把它们当作大脑的语言区。 我们现在缺的是前额叶皮层,那里住着世界模型。 但Yann也说,很可能我们会遇到现在看不到的障碍,那可能需要20年,甚至更久。 "AI历史上这种事发生过很多次。" Moravec悖论还在起作用 Moravec在1988年说:我们觉得很难的智力任务(下棋、算积分),计算机很容易做到。 但我们觉得理所当然的事(猫能做的事),计算机做不到。 47年过去了,这个悖论还在。 我们现在能训练机器人走路、避障,但它们远远不如一只猫灵活、有创造力。 "所以那些说一两年内就有AGI的人,完全是妄想。真实世界比他们想的复杂太多了。" 你不可能通过把世界tokenize然后用LLM来理解真实世界。 AI会抢走所有工作吗? Yann说:别听AI科学家谈经济学。 "去问经济学家,没有一个经济学家预测会出现大规模失业。" 他举了个例子:80年代最火的工作是"知识工程师"。 那时候有个大潮流叫专家系统,日本启动了"第五代计算机"项目,要做能跑Lisp和推理引擎的CPU。 知识工程师的工作是坐在专家旁边,把专家的知识变成规则和事实,然后计算机就能做专家做的事了。 这就是手工版的行为克隆。 结果呢?只在很少几个领域work,在经济上划算且可靠性够高的应用屈指可数。 这不是通向人类智能的路。 但当时的人也觉得这就是未来,就像现在的人觉得LLM是未来一样。 "在我职业生涯里,这种'最新技术就要带来AGI'的幻觉已经出现过三次了,在我之前可能有五六次。" 1956年,Newell和Simon做了"通用问题求解器"(General Problem Solver,名字很谦虚对吧)。 他们觉得所有问题都能表示成搜索:有个目标函数,有个解空间,搜索最优解就行了。 他们不知道的是,所有有意思的问题都是指数复杂度的。 所以通用问题求解器一点都不通用。 AI安全:为什么Yann不担心 很多人问他和Hinton、Bengio观点不一样怎么办。 Yann的回答很实际:当然要做安全,但这是工程问题,不是原则问题。 他举了喷气发动机的例子。 你能在双引擎飞机上飞半个地球,17个小时,完全安全。这太神奇了。 涡轮风扇发动机里的温度,没有任何金属能承受。旋转产生的离心力是几百吨。按理说这东西根本不该work。 但它确实work,因为工程做得好。 第一次造喷气发动机,肯定会跑10分钟就爆炸。不会省油,不会可靠。 但经济动力太强了,最后就做到了今天的可靠性。 AI也一样。 我们会先做出猫脑级别的AI,然后加上护栏(guardrails),防止它做危险的事。 Stuart Russell举过一个例子:你让家用机器人给你拿咖啡,有人挡在咖啡机前面,机器人为了完成任务会不会把人推开甚至伤害? Yann说这个例子很蠢,因为太容易修了。 你加个底层约束就行了:家用机器人要远离人,如果有人挡路就请他们让开,但绝不能伤害人。 如果机器人手里拿着刀在切黄瓜,那就加个约束:手里有刀的时候,周围有人就不要挥动手臂。 这些都是硬约束,不是fine-tuning。 LLM的问题是你只能fine-tune,总能被jailbreak。 但如果你用目标驱动的架构,有世界模型,能预测行动的后果,然后通过优化来选择行动序列,同时满足一堆约束条件,那它在构造上就是安全的。 它逃不掉这些约束,因为这不是训练出来的偏好,是系统架构的一部分。 智能不等于想要统治 这是Yann反复强调的一点。 "不是因为某个东西智能,它就想统治别人。这是两回事。" 人类想要影响他人,有时通过统治,有时通过威望,这是进化写在我们基因里的,因为我们是社会物种。 我们没理由把这种驱动力写进AI系统,它们也不会自己发展出来。 而且,"最聪明的人往往不是想当老大的人"。 他说:"看看国际政治舞台,想当老大的不是最聪明的那些人。" 很多最聪明的人只想研究自己的问题,根本不想管别人。 为什么要保持开放? AMI会发表所有上游研究。 Yann说这不是情怀,是必需品。 "如果你不发表,你很容易被自己骗。" 他见过太多次:公司内部对某个项目超级兴奋,觉得是革命性突破,结果根本不知道外面的人早就做得更好。 而且,如果你告诉科学家"来工作吧,但不能说你在做什么,也许5年后会有产品",他们没法有动力。 他们需要短期反馈,需要同行认可。 如果你想要真正的突破,必须让人发表。没有别的办法。 "这是很多公司现在正在忘记的事情。" 一个有趣的现象:中国更开放 Yann指出了一个讽刺的现象。 现在最好的开源模型是中国的。 美国公司(除了Meta)都在变得封闭,想保护"竞争优势"。 但中国的公司和研究机构完全开放。 所以现在很多工业界和学术界的人在用中国的模型,因为他们需要开源模型。 很多美国业内人士对此非常不满。 他们希望有一个好的、非中国的开源模型。 Llama 4本来可以是,但让人失望。也许Meta会修正,也许Meta也会变封闭,还不清楚。 Mistral刚发布了一个很好的代码生成模型,他们保持开放,这很酷。 他为什么还不退休? Yann65岁了,拿了图灵奖,刚拿了伊丽莎白女王奖,完全可以退休。 他老婆也希望他退休。 "但我有个使命。" 他一直相信:让人更聪明,或者用机器帮助人变得更聪明,这本质上是好事。 智能是世界上最稀缺的商品,尤其是在政府里(他笑着说)。 我们作为一个物种、作为一个星球,被有限的智能供应所限制。这就是为什么我们花巨大资源教育人。 增加为人类服务的智能总量,本质上是好事。 当然有危险,当然要防护。就像你要确保喷气发动机安全可靠,汽车不会在小碰撞里杀死你。 但这是工程问题,不是不可克服的。也是政治问题,但不是不可克服的。 他职业生涯里的所有项目,都围绕着这个目标:让人更聪明。 这就是为什么他当教授,为什么他在社交媒体上大量科普,为什么他做机器智能研究。 "人们觉得做自主智能机器和做辅助人类的机器是两套技术。不是的,完全是同一套技术。" Yann不只是研究AI。 他喜欢航海,尤其是多体船(三体船和双体船)。他有好几艘船。 他喜欢造飞行器。"我不叫它们飞机,因为很多根本不像飞机,但它们确实能飞。" 他爸爸是航空工程师,业余造飞机,还自己造无线电遥控系统。这成了家庭活动。他弟弟也在做,他弟弟在Google Research巴黎。 疫情期间他开始搞天文摄影,买了一堆望远镜拍星空。 他做电子乐器。从青少年时期就对音乐和电子音乐感兴趣,现在家里有一堆合成器,他自己造电子乐器,吹奏的那种,有指法,但产生的是控制信号。 他说航海和世界模型很像。 要把帆船开好开快,你必须预测很多东西:波浪怎么影响船,阵风什么时候来,船会不会倾斜。 你基本上要在脑子里跑流体力学计算。 你要知道气流在帆周围怎么流动,攻角太大会产生湍流,升力会大幅下降。 "调帆需要在脑子里跑CFD,但是在抽象层面,你不是在解Stokes方程。" 这就是他喜欢航海的原因:你必须建立一个预测性的心智模型才能做好。 最后的建议 有人问:如果今天开始AI职业生涯,应该学什么? Yann的答案可能会让人意外。 "学那些保质期长的东西,学那些帮助你学会学习的东西。" 技术变化太快,你需要快速学习的能力。 这怎么做到?学基础的东西。 而且这些东西往往不是计算机科学。 "我是个计算机系教授,但我建议你别学太多计算机科学。而且我要坦白:我本科学的是电气工程,我不是真正的计算机科学家。" 你应该学: • 数学,尤其是能和现实连接的数学 • 建模 • 工程学科里学到的那些东西 在美国,微积分1、2、3给你打好基础。但计算机系只要求微积分1,这不够。 概率论、代数、控制论、信号处理、优化,这些对AI都超级有用。 物理也很好,因为物理就是关于"我应该表示现实的什么才能做预测"。 这正是智能的本质。 当然你也要学足够的计算机科学,能编程,能用计算机。 即使AI会帮你编程,你还是要懂这些。 有人问:AI辅助编程会怎样? Yann说:会出现一个有趣的现象,很多代码只会被用一次。 因为写代码变得太便宜了。你让AI助手"画个图"或"做个小模拟器",它写段代码,你用一次就扔了。 "所以说我们不再需要程序员是错的。软件成本一直在下降,这只是下一步。 但这不意味着计算机会变得不重要,而是会更重要。" 整个访谈里,Yann展现出一种很罕见的特质。 他批判当下的主流方向,但不是为了批判而批判。 他有清晰的替代方案,有几十年的思考积累,有失败的教训,也有最近的突破。 他65岁了,本可以躺在功劳簿上,但他选择去做一件"所有人都觉得错"的事。 也许他是对的。 也许5年后我们会发现,当所有人都在堆LLM的时候,真正的突破来自世界模型。 也许20年后我们会发现,我们又一次遇到了看不见的障碍。 但至少,有人在走不一样的路。 而这个人,恰好是发明了卷积神经网络、在AI寒冬里坚持了几十年、亲眼见证了三次"这次肯定能实现AGI"的泡沫的人。 他的话,值得听,虽然不中听。
分享
评论 0
0
向阳乔木
1个月前
最近用AI辅助读经典论文,终于快串起来了 GPT-2:证明了大规模语言建模的潜力 GPT-3:展示了规模带来的few-shot能力 InstructGPT:用人类反馈让模型更可控 ChatGPT:把这些能力包装成易用的对话界面
分享
评论 0
0
向阳乔木
1个月前
AI的三条学习之路
分享
评论 0
0
向阳乔木
1个月前
今天测了飞书 aily工作助手。 新增的任务模式非常好用,直接起飞! 一句话整理资料制作飞书多维表格。 一句话生成双人播客。 一句话安排飞书日程。 一句话生成带语音和生图的网页。 支持MCP调用、内置豆包生图、豆包语音TTS。 相当强的AI助理,个人账号也能免费用,比很多AI工具强。 下面讲几个案例,有点超预期。
分享
评论 0
0
向阳乔木
1个月前
和AI讨论生成的穿越爽文大纲生成提示词。 AI还是太全面了,啥套路都懂。 --- 请生成穿越爽文大纲,包含: 基础设定:现代什么职业穿越到哪里,金手指类型及其边界限制,启动资源,主角性格特点和不擅长的领域。 世界观构建:这个世界的权力结构如何运作,经济体系是什么,主流价值观是什么,哪些领域是空白或落后的,主角的能力为何稀缺,本土势力的利益格局,外部势力的影响,主角如何在规则内获利而非简单打破规则。 剧情骨架:起点危机的性质和解决逻辑,首次展示的场景选择和传播路径,权力者背书的交换条件,专业碾压的技术原理,声望传播的媒介和节点,商业垄断的供应链控制,感情多线的差异化推进,权力突破的政治交换,终局的开放性设计。 爽点配置规则: 前期:身份反差、认知降维、以弱胜强、资源重估、预判应验、救命之恩、被迫出手、精准打击。 中期:财富跃升、权力渗透、价值认同、群体效应、权威让步、名人效应、标准制定、传承重构。 后期:生态垄断、外交筹码、规则豁免、多元共存、历史清算、超然地位、选择自由。 叠加原则:每个关键节点触发三个以上爽点形成共振,爽点之间有因果链不是简单堆砌,同类爽点变换呈现方式避免重复感,对立爽点交替使用制造节奏变化,爽点强度波浪式推进有起伏不是直线上升。 节奏套路库: 基础循环:问题-方案-验证-收益,怀疑-展示-理解-认同,冲突-化解-反思-合作,试探-回应-升级-确认。 进阶循环:日常铺垫-意外触发-能力展示-影响扩散,局部成功-引发关注-更大挑战-全面胜利,隐藏布局-逐步显现-关键时刻-全盘皆活。 冲突循环:利益冲突-谈判破裂-实力展示-新平衡建立,观念碰撞-各自坚持-实践检验-融合创新,多方博弈-暂时联盟-核心对决-格局重组。 情感循环:特定场景触发-性格互补吸引-危机中的依赖-价值观共鸣-关系确认,不同女主线的触发点和深化路径要有差异,感情深化要有具体的共同经历不是简单的一见钟情,多女主相处要有各自的定位和相处模式。 声望循环:核心圈层验证-相关圈层扩散-跨圈层传播-标志性事件引爆-社会共识形成-历史地位确立。 财富循环:技术变现-规模复制-渠道控制-生态构建-金融杠杆,每次跃升要有具体的商业逻辑不是简单的"生意好就赚钱"。 权力循环:解决具体问题-获得信任-承担责任-掌握资源-形成依赖-获得豁免,每次提升要有对等的贡献和政治交换。 打脸循环:记录具体的轻视言行-主角发展过程-对方逐渐听闻-亲眼见证差距-心理落差呈现-主角的冷淡回应,重点在对方的心理变化而非主角的羞辱台词。 反转循环:表面劣势实为优势,看似巧合实为布局,暂时让步为了更大收益,示弱是为了麻痹对手。 高潮循环:危机层层递进且有内在逻辑,解决方案出人意料但事后看合理,多方势力的反应各有不同,结果带来格局性变化而非简单的胜利。 配角功能分类: 推动者:提供信息、触发事件、制造机会,观察者:见证过程、传播影响、代表不同立场,合作者:提供资源、执行计划、分担风险,对手者:制造冲突、检验实力、推动升级,对比者:衬托主角、展示差距、体现成长,引导者:介绍规则、提供建议、扩展视野。 重要配角要有自己的动机和选择逻辑,不能所有人都无脑支持或反对主角,配角的态度转变要有具体的触发点和过程,部分配角可以始终保持中立或有保留的支持。 信息差利用: 主角利用现代知识预判趋势但不能太玄幻,读者知道主角底牌期待其他角色的反应,不同势力之间的信息不对称制造博弈空间,信息的释放节奏控制悬念和期待,关键信息在合适时机暴露产生最大冲击,主角也可能有信息盲区需要学习和适应。 视角切换技巧: 主角视角展示思考过程和决策逻辑,对手视角展示其合理性和困境,旁观者视角提供客观评价和社会反响,权力者视角展示政治考量和利益权衡,美女视角展示情感细腻变化,在关键节点多视角并行呈现不同层面的影响,视角切换要服务于信息传递而非炫技。 装逼层次设计: 最高级是通过结果说话无需言语,其次是轻描淡写的陈述让别人自己震惊,再次是精准的预判事后应验,被迫展示时的克制和无奈,偶尔的高调宣示但要有充分铺垫,装逼后必须有实力支撑且要考虑后续影响,避免刻意的羞辱性台词用冷淡和距离感更有力量。 金手指使用规则: 明确系统能做什么不能做什么,系统提供资源或知识但执行要靠主角,系统的奖励要有获取条件不是白给,系统升级要有逻辑和代价,系统的存在可以是秘密也可以部分暴露,系统不能解决所有问题主角要靠智慧,系统的设定要在开篇就明确不能后期随意加功能。 主角人设要求: 有原则但不迂腐知道变通,对盟友真诚但不是烂好人,有手段但不阴险用阳谋,自信来自实力而非盲目,低调是选择而非软弱,对美女有魅力但不是见一个爱一个,享受成功但不沉迷权力,有长远规划不只看眼前利益,承认自己的局限性愿意学习,尊重值得尊重的对手。 反派分层设计: 小反派是利益冲突可以和解或收服,中反派是理念不同可以相互尊重,大反派是根本对立但动机要合理,反派的实力和智商要在线不能无脑送,反派的失败要有内在逻辑不只是主角光环,部分反派可以全身而退不是都要凄惨下场,反派也可以有人格魅力和值得同情之处,避免脸谱化的坏人。 对话设计原则: 符合人物身份、时代背景和当时情境,通过行动和结果展示态度而非说教式宣言,留白让读者自己体会不要说得太满,关键对话要推动剧情或揭示性格,避免网络段子式的俗套金句,冲突中的对话要有交锋和层次,情感对话要细腻真实不要喊口号,权力者的话要有分量和深意,主角的话要体现智慧和格局。 爽点密度控制: 小爽点每1-2章如日常展示或小胜利,中爽点每3-5章如阶段性突破,大爽点每8-10章如格局性变化,超级爽点全书2-3次如质的飞跃,开篇要快速进入第一个爽点建立期待,爽点之间要有铺垫和过渡不能连续高潮,适当的平缓节奏让读者消化和期待,高潮前的压抑要适度不能让读者弃书。 禁忌雷区: 主角不能圣母但也不能滥杀无辜,感情线不能有背叛和道德污点,主角可以有挫折但不能真正失败太久,不能有让读者生理不适的描写,不能让配角的风头完全盖过主角,主角的女人不能被别人成功觊觎,不能有过度的政治隐喻,不能让主角的成功完全靠运气,避免过度的数据和设定堆砌。 细节真实感: 专业描写要有基本准确性但不过度炫技,时代背景要有考据但不影响阅读流畅,技术原理要有逻辑但不写成教科书,人物反应要符合性格和处境,场景描写要有感官细节但不冗长,数值要具体但不夸张到离谱,美女描写要有差异化不能千篇一律,日常细节增加真实感和代入感。 成长曲线设计: 主角不能一开始就无敌要有提升空间,从依赖系统到自主创新,从被动应对到主动布局,从个人能力到团队协作,从技术碾压到格局碾压,从追求财富到追求影响力,认知和视野的提升要体现出来,适应新环境的过程要有描写。 商业逻辑合理性: 不能只靠"产品好"要有渠道、供应链、品牌,垄断的形成要有过程和策略,要考虑竞争对手的反应和应对,扩张要有资金、人才、管理的支撑,要有具体的盈利模式和成本控制,商业帝国的稳定性要有制度保障,不能忽略政治因素和外部风险。 权力获取的合理性: 权力的提升要有对等的贡献,要有政治交换和利益平衡,要考虑其他势力的反应,权力的使用要有边界和制约,不能无缘无故封王要有充分理由,特权的获得要有实际需求支撑,权力的稳固要有持续的价值输出。 时间跨度的真实感: 事业发展要有合理的时间周期,感情深化要有足够的相处时间,不能三个月从平民到王爷,要有季节变化、节日、年份的标记,人物的成长要匹配时间跨度,历史事件的推进要符合逻辑,适当的时间跳跃但要交代清楚。 抽象本质: 所有剧情是稀缺价值的交换和积累,所有爽点是预期差和认知颠覆,所有冲突是利益或观念的碰撞,所有感情是价值认同和情感共鸣,所有节奏是张弛交替和情绪管理,所有成长是能力边界的扩展,核心是让读者持续获得"主角比预期更强"的确认感和"如果是我该多好"的代入感,同时保持基本的逻辑自洽和情感真实。
分享
评论 0
0
向阳乔木
1个月前
基于王冠提到的OpenAI研究员之前在斯坦福分享的,让AI写一篇容易懂的文章。 训练GPT到底在干什么? 大多数人会说"学语言规律""预测下一个词"。 这些都对,但还不够深刻。 OpenAI的Jack Rae 在斯坦福提出了一个让人眼前一亮的视角:训练大语言模型,本质上是在做无损压缩。 很反直觉对吧? 一个175B参数的模型,怎么可能是"压缩"? 但如果你理解了这个视角,很多困惑就会豁然开朗。 先聊点哲学。 早在公元前4世纪,亚里士多德就说过:"用更少假设推导出的论证,往往更优越"。 这种"简单即美"的思想,后来被14世纪的奥卡姆总结成著名的"奥卡姆剃刀"原则,最简单的解释往往是正确的。 但这些哲学思辨,在1964年被Ray Solomonoff变成了可证明的数学定理: 如果一个数据集是由某个算法生成的,那么预测这个数据集的最佳方式,就是找到该数据集的最小可执行压缩包。 定理很精妙,说的是:你对数据压缩得越好,就越理解数据的本质。 回想下"中文房间"这个经典思想实验。 一个人拿着一本巨大的规则手册,里面记录了所有可能的英文句子和对应的中文翻译。 这个人真的"理解"翻译吗? 从压缩的角度看,答案很清楚:这本手册太大了,是最差的理解方式。 如果出现一个新词、新表达,系统立刻崩溃,因为它只是在查表,没有真正理解语言的规律。 但如果你能把这本手册压缩成一套精简的语法规则和核心词汇,那就不一样了。 压缩率越高,说明你提炼出的规律越本质,泛化能力就越强。 大语言模型是最好的压缩器 先看一组惊人的数字。 Meta发布的Llama模型,65B版本在1.4万亿token的数据上训练了一个epoch。 原始数据大小是5.6TB,但如果用这个模型来"压缩",最终只需要大约400GB的空间。 压缩率14倍。 作为对比,目前最好的传统文本压缩算法(Hutter Prize获奖者)的压缩率是 8.7倍。 大语言模型已经是最先进的无损文本压缩器了。 你可能会问:等等,65B的模型本身不就有260GB吗?怎么能说压缩后只有400GB? 这就是最精彩的部分。 你不需要传输模型权重,关键在于理解"压缩"的真正含义。 假设:你想把维基百科的全部内容发给朋友,但带宽很低。 传统方法是用gzip压缩,但有个更聪明的办法: 你发给朋友两样东西: 1. 一段训练Transformer的代码(只有1MB) 2. 用这个模型压缩后的数据序列(400GB) 朋友收到后,用这段代码从头训练一个一模一样的模型。 每预测一个token,就用压缩数据"解码"出真实token,然后继续训练,预测下一个。 重复这个过程,就能完整还原5.6TB的原始数据。 看到了吗?模型权重从来不需要传输。 无论你训练10层还是1000层的Transformer,初始化代码的复杂度几乎一样。 真正占空间的是"压缩后的数据",而这个大小取决于模型预测得有多准。 这就是为什么更大的模型反而压缩得更好。 让我们重新理解"简单"。 传统机器学习告诉我们"小模型泛化更好",因为它们"更简单"。 但这里的"简单"指的是参数少。 压缩视角告诉我们:真正的简单不是参数少,而是对数据的描述更简洁。 Llama 33B和65B的"代码复杂度"完全一样(都是那1MB的训练代码),但65B把数据压缩得更小。 所以从根本上说,65B是更"简单"的模型,也是更智能的模型。 这就是为什么大模型不会过拟合,为什么scaling law有效。 只要模型能更好地压缩数据,它就在学习更本质的规律,就会有更强的泛化能力。 压缩视角还给了我们一个特别的礼物:它是唯一不可博弈的训练目标。 测试集污染是现在大模型评估的大问题。 但如果用压缩来衡量,这个问题不存在。 假设你把整个测试集都塞进训练集,让模型完美记住。 这样模型预测准确率是100%,压缩数据的部分确实变成0了。 但代价是什么?你要把整个数据集都算进"模型描述长度"里。 总体压缩效果反而变差。 这就是压缩的优雅之处:任何作弊手段都会在数学上暴露出来。 只有真正学到本质规律,才能做到更好的压缩。 从这个视角看,通往AGI的路径变得清晰了: 收集所有有用的感知信息,然后尽可能地压缩它。 任何能提升压缩率的方法都值得研究: • 更好的架构(S4、稀疏注意力) • 继续scaling(更大模型、更多数据) • 工具使用(计算器、检索器) • 合成数据 • 多模态融合 只要它能降低"压缩后的总大小",就是在朝AGI前进。 回顾历史,每一次AI的范式转变,本质上都是一次压缩的飞跃: • n-gram 让我们有了基本的语音识别 • RNN 让我们能生成连贯的段落,做机器翻译 • 大规模 Transformer 让我们能理解长文档,做复杂推理 每一次,我们都在把世界的信息压缩得更紧凑,理解得更深刻。 当然,这个视角也有局限。 对图像、视频这种高维数据,逐像素建模可能正确但不实用。 计算量会爆炸。 可能需要先做一些语义层面的过滤。 更重要的是,世界上有很多有用的信息是不可观测的。 比如围棋高手的"搜索树",你只能看到落子,看不到他们考虑的那些分支。 这就是为什么AlphaZero需要自我对弈,它在生成那些不可观测的数据。 所以压缩可观测数据是必要的,但不充分。 强化学习、主动探索这些方法仍然不可或缺。 但无论如何,压缩给了我们一个理解智能的新角度。 当我们说模型"涌现"了新能力,本质上是不是压缩率跨过了某个临界点? 当我们说模型"理解"了某个概念,是不是说它找到了一种更简洁的方式来编码相关信息? 当我们追求AGI,是不是就是在寻找宇宙信息的最小描述长度? 这些问题没有标准答案。 但这正是这个领域迷人的地方:我们在用数学和工程,探索智能的本质。 智能的本质,也许就藏在压缩里。 而我们现在做的,就是在这条路上,一步步走向那个最简洁、最优雅的答案。
分享
评论 0
0
向阳乔木
1个月前
王冠被 OpenAI 碾压过三次。 第一次做写作工具,ChatGPT发布了。 第二次做Excel转图表,GPT-4来了。 第三次做Agent工作流,OpenAI Plugins上线了。 每次都踩得那么精准,像是有人在天上盯着他的进度条。 这让他意识到一件事:盲目做应用是虚无的。 你不知道基座模型的能力边界在哪儿,就像在流沙上盖房子,随时会被淹没。 所以他做了一个决定,先去月之暗面(Moonshot AI)当模型产品负责人,搞清楚模型到底能干什么,再出来创业。 一年后,他离职创办了ONE2X,做AI视频生成器Medeo。 他是月之暗面第一个离职创业的员工,公司的离职流程都是因为他才建立的。 压缩即智能:五道口的顿悟 王冠对大模型的信仰,来自五道口的一顿饭。 那是在龙人居餐厅,月之暗面创始人杨植麟(Tim)花了三个小时给他讲"压缩即智能",全程在纸上写数学公式。 王冠坦诚地说,"我完全没听懂那些公式,但大受震撼"。 后来他去研究OpenAI科学家Jack Rae的视频,慢慢拼凑出了完整的认知地图。 这个概念很抽象,但王冠把它讲得很生动: 压缩不只是把文件变小,而是强迫数据建立联系。 想象下,你教AI两件事:中文翻译成英文,还有中文总结。 按理说,AI没学过"英文总结"这个任务。但因为压缩把这些离散的知识点挤在一起,它自动学会了。 这就是连续性。 以前的AI处理的是结构化数据,像Excel表格那样,一格一格的,互不相干。 现在的大模型处理的是语言、视频这些非结构化数据,它们本身就是连续的,像一条河流。 压缩让这条河流得更顺畅,AI就能"触类旁通"。 数据的三个阶段:创业公司的机会在哪儿 王冠有个核心判断:智能的第一性原理是数据。 他把AI行业的竞争分成三个阶段: 第一阶段:公域数据 大家都在互联网上抓数据,拼的是算力和清洗效率。这个阶段已经结束了,格局已定,基座模型公司赢了。 第二阶段:领域数据 拼的是"我有你没有"的私有数据,比如医疗、金融这些行业的历史积累。这利好大厂和传统巨头。 第三阶段:内生数据 这是创业公司的机会。 什么叫内生数据?就是世界上之前不存在的数据。 ChatGPT出现之前,没有海量通过对话解决问题的自然语言数据。 ONE2X做视频生成,就是要创造一套描述视频制作过程的语言(DSL),这套语言本身就是新数据。 只有通过设计新的产品形态产生内生数据,并把它训回模型,创业公司才能建立壁垒,不被基座模型的"自然延伸"碾压。 生成系统:一个完整的闭环 王冠不喜欢"套壳"这个词的贬义用法。 他说,壳可厚可薄,System 2才是核心竞争力。 基座模型(System 1)大家用的都一样,产品的胜负取决于你在模型之外构建的"壳",也就是上下文(Context)。 ONE2X的架构分三层: 底层:DSL(领域特定语言) 把视频制作这件复杂的事,抽象成一组有限的"原子能力"。就像围棋,规则是封闭的,所以可以被计算。 中间层:Context(上下文) 这一层的核心任务是降低"熵"。 什么是熵?就是不确定性。 用户说"做个高大上的视频",这句话的熵很高,AI不知道怎么执行。 System 2要把这句话转化成精确的指令。 同时,它还要约束AI智能体的行为边界,确保它不会乱调用工具,输出可控。 顶层:Environment(环境) 这不只是个软件界面,而是一个让人和AI共同活动的"环境"。 用户在这里的每一次操作、每一次修改,都是在为系统产生高质量的数据。这个环境本质上是一个标注平台。 王冠举了个例子:厨师做菜,油温多少度,翻炒几下,这些隐性知识如果不记录下来,AI就学不会。Environment要做的,就是把这些"火候"全部显性化。 物理世界vs理念世界:视频的两个战场 王冠对视频赛道有个独特的划分。 物理世界的视频,是摄像头拍的,对应抖音、快手这些短视频平台。 王冠把它比作"夜店、超市、生活广场",娱乐、八卦、卖货,供给已经很充分了。 理念世界的视频,是AI生成的,对应知识、艺术、精神信仰。王冠把它比作"图书馆、歌剧院、大教堂"。 这类内容以前因为制作成本太高(比如耐克的高端广告,或者把一篇文章可视化成视频),一直是稀缺的。 ONE2X要做的,就是占领这个"理念世界"。 他还有个更大的愿景:让视频从"创作"变成"表达"。 古代写字是创作,需要笔墨纸砚,门槛很高。 现在发微信是表达,门槛极低。目前做视频还是创作,像写情书。未来应该变成表达,像说话一样自然。 只有当一种模态从创作变为表达时,才会诞生伟大的产品。 生成系统将取代推荐系统 王冠有个大胆的判断:中间商将死。 互联网平台本质上是"分销平台",掌握流量分配权,剥削创作者。抖音、淘宝都是这样。 生成系统是"产销一体",没有库存,没有流量分配,直接对接需求与生产。 用户想要什么,AI直接生成,不需要在海量内容里检索。 这意味着推荐算法这个"中间商"不再需要了。 随之而来的,是货币的变更。 在内容供给无限的时代,"注意力"(流量)不再稀缺,稀缺的是"信任"。 未来用户不会为流量买单,而是为创作者的品味(Taste)和配方(Recipe)付费。就像Substack那样,我信任你这个人,所以订阅你。 未来的创作者:两极分化 王冠认为,创作者群体会分化成两类。 金字塔尖的艺术家/专家 这些人不会被AI替代,反而会被放大。 系统是他们能力的放大器,把他们的高级智慧复制成千上万份。 他们的每一次操作、每一次修正,都是在为系统提供高质量的"内生数据"。 他们是生成系统能够不断进化的核心驱动力。 广泛的"产销者" 对于大众而言,创作不再是为了商业目的,而是回归到"产销一体"。 就像退休老干部在家写毛笔字,创作过程本身就是一种消费。 用户生成内容是为了满足自己的精神需求,价值在生产完成的那一刻就实现了,不需要依赖外部流量变现。 王冠把这叫做"劳动即消费"。 AI时代的产品经理:不再只是画原型 王冠自己就是产品经理出身,他对这个角色在AI时代的价值有深刻的思考。 PM的核心工作不再是画原型,而是设计智能的边界。 具体来说,分三个层面: 设计System 1:定义模型的能力边界 模型即产品,模型本身是值得被设计的。PM需要把业务Know-how转化为数据,定义什么叫"好"的结果,建立评测标准。 构建System 2:设计上下文与环境 PM的核心竞争力在于Context Engineering(上下文工程)。 通过设计Agent框架、工作流和知识库,为模型提供高质量的输入。 战略核心:设计"内生数据"闭环 PM必须设计一种全新的产品形态,使其在运行过程中产生世界上之前不存在的数据。 这个产品本质上是一个"标注平台"。 王冠说,PM还要扮演"审美"和"标准"的制定者。 不是所有数据都是好数据,PM需要具备极高的品味(Taste),去定义什么是高质量的输出。 组织即环境:员工是智能体 ONE2X是一家很特别的公司。 全员远程,没有管理岗,没有KPI,甚至连考勤都没有。 王冠把它定义为"产品工作室"(Product Studio),而不是传统公司。 他的组织哲学很简单:把公司视为一个"环境",员工是"智能体"。 这个概念来自强化学习。 在强化学习里,你不控制智能体,而是搭建一个环境,让智能体在其中自主活动。 王冠说,管理的核心不是KPI考核,而是对齐"奖励函数"(Reward Function)。 每个员工进入公司都带有自己的目标,可能是对技术的热爱,可能是不想让公司死掉。 组织的智慧在于找到一种方式,让个人的目标向量在公司前进的方向上有最大的投影。 为了解决远程办公的孤独感和信任问题,ONE2X建立了"温暖可信计划"。 公司内部有个"朋友圈",大家在飞书里建立话题组,分享生活八卦、写小作文。 通过这些非工作内容的交流,建立类似线下的温暖感和人际信任。 王冠说,坐班制是工业革命的产物。脑力劳动不需要依附于物理产线,远程办公配合"温暖可信计划"更适合产品工作室模式。 狭义AGI:一个自动化的赚钱闭环 关于AGI(通用人工智能),王冠有个非常务实的定义。 他不谈全知全能,也不谈自我意识。他说的是狭义AGI。 什么是狭义AGI? 在一个特定商业领域(比如炒股),AI能自己赚钱,用赚的钱买算力和数据,再优化自己赚更多的钱。 当人完全退出这个Loop时,狭义AGI就在该领域实现了。 这不是一个突然到来的"奇点",而是一点一点发生的。 比如在编程(Coding)或语言处理领域,这种现象似乎正在被点亮。 诺基亚时代的策略:积累数据,等待iPhone时刻 王冠有个精准的类比:当下是AI的"诺基亚时代"。 我们现在看到的AI应用,很像诺基亚手机上的计算器或贪吃蛇。 在这个阶段做复杂的移动互联网式APP是不合时宜的。 策略是什么? 在"iPhone时刻"到来之前(即端到端多模态模型成熟、成本极低、推理极快之前),应该做离模型最近的生产力工具。 这样既能感知模型变化,又能积累数据(System 2/Context),为未来真正的超级APP做准备。 王冠还引用了一句诗来描述通用Agent和垂直Agent的关系:"千江有水千江月,万里无云万里天"。 垂直Agent(千江月)在各自领域有独特智慧和数据,这是应用公司的机会。 通用Agent(万里天)试图覆盖所有,但在过渡阶段无法在所有领域都做到极致。 最终两者会殊途同归:通用做深垂直,垂直扩展边界,在效果与成本的极致比拼中相遇。 蝴蝶穿花:老子的入世哲学 聊到个人哲学,王冠说自己深受道家影响。 但他做了个有趣的区分:不喜欢庄子的"大鹏展翅",更喜欢老子的"蝴蝶穿花"。 大鹏展翅是逍遥、避世、飞得高。 蝴蝶穿花是在花丛中飞行从不走直线,而是在障碍中游刃有余。 王冠说,创业者应该像蝴蝶一样,积极入世,顺应环境变化解决具体问题,而不是追求虚无的超脱。 他还分享了一个让他感到"惊悚"的冷知识:一代人只有25到30年。 作为一个30多岁的人,他意识到自己现在做的产品,其实是在服务"下一世"的人(即比他小25-30岁的人)。 这种时间观让他跳出了当下的焦虑,用更长远的眼光看产品演进。 北极星指标:系统的智慧程度 ONE2X的北极星指标不是DAU(日活),而是系统的智慧程度。 王冠说,3个专家用户产生100万营收,优于10万个普通用户产生同样营收。 为什么? 因为专家用户(高审美/高能力)的操作能为系统提供高质量数据,提升系统的"智慧程度"。 智慧怎么量化? 不是看生成了多少内容,而是"消耗更少的Token达到同样的效果"。 就像做数学题,一眼看出答案的人比反复演算的人更聪明。Token消耗越少,代表系统越智能。 这是一个完全不同于互联网时代的衡量标准。 一个意外的验证 为了验证产品的商业价值,王冠自己做了一次"小白鼠"。 他用Medeo的早期版本制作视频,发在微信视频号上。作为一个没有特意运营的号,竟然跑出了200多万播放量。 更惊喜的是,他一开始不知道视频号有流量分成,直到有一天系统提示有钱到账(几百块钱)。 这让他确信,即使是目前的半成品工具,也能让普通人通过内容获利。 还有个更疯狂的故事。 B站和视频号上某位头部的AI内容博主,为了使用他们的产品,借遍了周围朋友的谷歌账号来充值积分。 他们把能买的积分包全部买光并充值到上限,依然觉得不够用,最后直接联系到王冠团队求助。 这让王冠团队意识到,头部创作者对高效生产工具的渴求是惊人的。 反共识的20个观点 如果要总结王冠的想法,这里有20个最核心的反共识观点: 关于智能的底层逻辑 1. 智能的第一性原理是数据,数据决定边界,算力决定速度,算法决定涌现 2. 压缩即智能,核心在于"连续性" 3. 从"拟合结构"到"拟合世界" 4. 狭义AGI是"赚钱-进化"的自动化闭环 关于行业竞争 5. 行业发展的三个阶段:公域→领域→内生 6. 护城河在于"内生数据" 7. 当下是AI的"诺基亚时代" 8. "壳"是核心竞争力,Context is Everything 9. 通用与垂直的终局:千江有水千江月 关于产品方法论 10. 生成系统将取代推荐系统 11. 产品架构三层论:DSL→Context→Environment 12. 上下文工程的核心是"降熵" 13. 北极星指标:系统智慧度 14. 环境即标注 关于内容生态 15. 视频是AI时代的"起点"而非终点 16. 物理世界vs理念世界 17. 从"创作"到"表达" 18. 货币变革:从"注意力"到"信任" 关于组织与哲学 19. 组织即环境,员工即智能体 20. 蝴蝶穿花,积极入世 尾声 王冠最爱的食物是白米饭。 在快问快答环节,他说自己不喜欢旅游,也没有全球视野的美食偏好。 白米饭兼容性最强,和任何食物搭配都有滋味。 这或许也隐喻了他做产品的思维:做最基础、最兼容的底座。 在AI的诺基亚时代,大多数人在追逐流量和变现,王冠选择了一条更难的路:造一座视频的图书馆,积累内生数据,等待iPhone时刻。 他说,一代人只有一世。 那就用这一世,做点不一样的事。 --- 基于播客张小珺Jun 商业访谈录,使用Prompt生成。
分享
评论 0
0
向阳乔木
1个月前
朋友圈看到的,感觉基本是多数人vibe coding的标准用法了吧?
分享
评论 0
0
向阳乔木
1个月前
昨天重看了黑客帝国,发现1999年的片子还挺超前,AI过于强大,人类害怕,逼不得已破坏环境,给用太阳能的AI断电。 AI发现人类大脑生物电也能用,人就被AI圈养,囚禁意识,过在虚幻的世界里,像“缸中大脑”,人类以为的真实世界都是生成的。 直到有人发现真相开始反抗,但大多数人还是喜欢虚拟世界,细思极恐啊,创意太牛逼了。
分享
评论 0
0
向阳乔木
1个月前
提示词:“如果诸葛亮有智能手机,三国历史会怎样?” GPT5.2 更发散搞笑。Claude 4.5 Sonnet更正经严肃。 写穿越小说启发想法,GPT5.2 好些。
分享
评论 0
0
向阳乔木
1个月前
用同样提示词测试了GPT 5.2 ,发现越画越离谱.... 一开始还行,后面开Thinking /Extend Thinking 变小鸡啄米图了。 模型降智太明显了,已用纯净IP了...
分享
评论 0
0
向阳乔木
1个月前
谷歌申诉还是有点用的,Gemini小号回来了,不知道后续会怎么样。
分享
评论 0
0
向阳乔木
1个月前
看来,扎克伯格是真急了! 彭博社报道,Meta预计明年发布的闭源模型牛油果(Avocado)蒸馏了阿里Qwen、谷歌Gemma、OpenAI的GPT-OSS等开源模型。 这真的有点出乎意料,曾经的大模型开源王者,现在用竞品开源模型的数据和权重了 😱 开源模型头把交椅早已经被阿里的Qwen抢走,Llama 迟早得凉,可惜了... 小扎之前花143亿美元收购Scale Al,让前CEO Alexandr Wang 帮他们搞大模型,成立“TBD Lab”产品团队。 自己亲自出马挖人,给AI研究员开出几亿美元的多年薪酬包。 破釜沉舟,大力出奇迹,还是一地鸡毛,还挺期待故事结局。
分享
评论 0
0
向阳乔木
1个月前
豆包手机体验到了,有点炫酷! 一句话让手机自己安装常见App 左侧物理按键随时唤起豆包,双击视频通话,onboarding设计非常简洁丝滑。
分享
评论 0
0
向阳乔木
1个月前
今天见了好几个AI自媒体朋友,发现个规律: 发现文章写的好的,讲故事能力也都超强。 怎么锻炼讲故事能力,不知道有没有书籍、课程推荐。
分享
评论 0
0
向阳乔木
1个月前
农耕时代比谁写的好,工业时代比谁算的好,AI时代比?
分享
评论 0
0
向阳乔木
1个月前
我记得小互还是谁翻译过 OpenRouter的token使用情况。 看了报告还是有点吃惊。 ① 都用开源模型搞xx剧情(估计) 开源模型中,超过50%的使用是角色扮演(虚拟角色、互动故事、文字游戏),编程只有20%。 开源限制少,涩涩是人的本能。 ② 中国开源模型发展迅猛 2024年底还不到2%,2025年中已经快接近30% ③ 灰姑娘的玻璃鞋效应 不是"最好的模型赢",而是"第一个解决你痛点的模型赢" 一旦用户找到合适的模型,即使后来出现更好的,他们也不换了 看来模型发布窗口期很重要,"又一个差不多的模型"基本没机会。 ④ 小模型批量死,中等模型崛起 轻量但能力不足?不要 超大但成本高延迟高?也不要 中等规模恰好踩在点上。 ⑤ 编程任务输入token消耗最大 编程类:20K+ 其他类:5K左右 核心原因是,用户在"喂整个代码库".... ⑥ 推理模型占一半用量 2024年初:推理模型使用占比≈0% 2025年底:推理模型使用占比>50% 从"一次性生成文本"到"多步骤思考"的变化。 ⑦ Claude的编程占比首次跌破60% 以前长期占据编程60%+份额 2025年11月,首次跌破。OpenAI从2%涨到8% 不得不说,Anthropic的CEO是真sb ⑧ 亚洲用量崛起 亚洲使用占比一年翻倍(13%→31%) 不只是中国 新加坡、韩国、日本都在快速增长 还有挺多内容的,原文见评论区
分享
评论 0
0
上一页
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
...
34
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞