阑夕
9个月前
Kimi和DeepSeek的新模型这几天内同时发布,又是一波让人看不懂的突飞猛进,硅谷的反应也很有意思, 已经不再是惊讶「他们是怎么办到的」,而是变成了「他们是怎么能这么快的」,就快走完了质疑、理解、成为的三段论。 先说背景。大模型在运作上可用粗略分为训练和推理两大部分,在去年9月之前,训练的质量一直被视为重中之重,也就是通过所谓的算力堆叠,搭建万卡集群甚至十万卡集群来让大模型充分学习人类语料,去解决智能的进化。 为什么去年9月是个关键的转折点呢?因为OpenAI发布了GPT-o1,以思维链(Chain-of-Thought)的方式大幅提高了模型能力。 在那之前,行业里其实都在等GPT-5,以为一年以来传得沸沸扬扬的Q*就是GPT-5,对o1这条路线的准备严重不足,但这也不是说o1不能打,它的强大是在另一个层面,如果说训练能让AI变得更聪明,那么推理就会让AI变得更有用。 从o1到o3,OpenAI的方向都很明确,就是变着法儿奔向AGI,一招不行就换另一招,永远都有对策,大家平时对于OpenAI的调侃和批评很多,但那都是建立在高预期的前提下,真不要以为OpenAI没后劲了,事实上每次都还是它在推动最前沿的技术创新,踩出一条小径后别人才敢放心大胆的跟上去。 AI大厂们一直不太承认训练撞墙的问题,这涉及到扩展法则(Scaling Law)——只要有更多的数据和算力,大模型就能持续进步——有没有失效的问题,因为可被训练的全网数据早就被抓取殆尽了,没有新的知识增量,大模型的智能也就面临着无源之水的困局。 于是从训练到推理的重点转移,成了差不多半年以来最新的行业共识,推理采用的技术是强化学习(RL),让模型学会评估自己的预测并持续改进,这不是新东西,AlphaGo和GPT-4都是强化学习的受益者,但o1的思维链又把强化学习的效果往前推进了一大步,实现了用推理时间换推理质量的正比飞跃。 给AI越充分的思考时间,AI就能越缜密的输出答案,是不是有点像新的扩展法则?只不过这个扩展在于推理而非训练阶段。 理解了上述背景,才能理解Kimi和DeepSeek在做的事情有什么价值。 DeepSeek一直是「扮猪吃老虎」的角色,不但是价格战的发起者,600万美元训练出GPT-4o级模型的测试结果,更是让它一战成名,而Kimi正好相反,它的产品能力很强,有用户,甚至还为行业贡献了足够的融资八卦,但在科研方面,除了都知道杨植麟是个牛逼的人之外,其实还是不太被看到。 这次就不一样了,DeepSeek不再是一枝独秀,Kimi也把肌肉秀到了人家脸上,Kimi k1.5满血版在6项主流基准测试里和o1同台竞赛,拿到了3胜1平2负的结果,已经完全称得上是平起平坐了。(1/2)
阑夕
9个月前
在历史的长河中,知乎第三次开启「互联网十问」。 2012 年,智能手机首次超越 PC,成为上网终端的主角。马化腾现身提问:下一个十年,互联网升级的大致方向在哪?邢壮杰给出了答案:依赖群体智慧解决现实生活的基本问题。后来,外卖、打车、订票等需求的解决,验证了这一设想。 2018 年,互联网 “下半场论” 不绝于耳,AlphaGo 余威犹烈,杨强教授提问:机器的智能和人类的智能有什么重要区别?华沙举例说明,人工智能需另辟蹊径,不能单纯模拟人类思考。果不其然,ChatGPT 的横空出世,带来了科幻电影式的未来可能。 时间来到 2025 年,没有任何先兆,知乎再次敲响时代钟声。 这一次的「互联网十问」,从字里行间来看,充满了对于不确定性的关心,这点和大众情绪的感知倒是高度一致的。 知乎的创始人周源想知道变化里的不变是什么,美团核心本地商业的CEO王莆中问的是零售业将会如何改写利益,文化学者马家辉质疑互联网的开放精神已经快消失了,泡泡玛特的CEO王宁求问中国企业会在全球消费市场里扮演什么角色,Hugging Face的联合创始人Julien Chaumond则惊讶于AI开源浪潮里的「中国崛起」…… 似乎所有人都有一种强烈的焦虑感,或者说「身在局中不知局,知时已是局外人」的FOMO意识,所以知乎才给2025年的互联网十问,在前面加上了「破局者」的小标题。 预测未来的最好方式,就是参与创造未来,找不到门也没有关系,打破墙壁之处,都可以是门。 我最喜欢的提问,是投资人黎竹岩向知乎的科技从业者征集过去几年里经历了那些快乐的瞬间,让自己在面对挑战时依然有前行的力量。 和预测未来或是洞察先机这种宏大叙事比起来,个体化的体验在公共广场上有些呈现出退却趋势,无论是推荐算法,抑或热搜榜单,都在反复传递着一连串信号:遥远比邻近重要,他者比自我重要,共识比私情重要。 但人欲才是推动互联网的那只「看不见的手」,网购初期面临的信任危机,被支付宝以担保的形式高明解决了,社交媒体的诞生,其实来自大学生们无处安放的荷尔蒙,连OpenAI的成立,是始于创始团队都因对谷歌抱有天然的厌恶而走到了一起。 所以我更喜欢黎竹岩的提问底下,那些见微知著的表述: 有做计算机科研的年轻人,因为有机会和行业老前辈韩家炜教授一起共进早餐,而满心振奋的; 有在给「黑神话:悟空」做文物扫描的结构数字工程师,在现场收到专利通过的短信,宽慰于总算接过了父亲的使命; 有和罕见病斗争的制药人,看到新药进入临床后治愈十几个患者的结果后,不再愁苦于生物空科技的产业低估,坚定做事的信念; 还有大数据竞赛的开发者,说他每次赢得比赛的奖金,都会被善解人意的老婆放过一部分留给自己,于是依然存有继续参加挑战的动力…… 好吧,我的意思是,有松弛,有激动,有寻常,有特别,这样千人千面的分享构成,才是知乎连接问题和答案的价值。 很多年前,我们只能从报纸的新年献词里读到「让无力者有力,让悲观者前行」的安抚语句,但在今天的知乎,你我都能从具体的人和事里,获得让自己勇于前行的力量。 所谓好奇心是互联网时代的三大生产力之一,也是推动人类社会不断前进的原动力。 在抵达宇宙尽头之前,我们都还需要知乎继续提问。
阑夕
9个月前
历史是一面镜子,对照是它最有价值的功能。 15年前,Google宣布退出中国,引起一时轰动,在不满和同情的情绪夹杂下,许多年轻人自发前往清华科技园的科建大厦门口,在尚未铲除的Google标志留下花束。 这种悲剧色彩拉满的行为,捎带着也为那一年创造了一个新的网络名词:「非法献花」 大量的中文用户涌入推特,以「GoogleCN」为话题进行讨论,在推特年终的统计报告里,「GoogleCN」的热度甚至超过了当年举世瞩目的海底地震「Help Hatti」,爆发出了与中文用户规模完全不成比例的声量。 后来国内对于Google退出事件的总结,被定调为「是它主动选择不愿接受中国法律监管而做出的决定」。 真要这么说倒也没毛病,曾任Google中国区总裁的李开复后来补刀表示:「中国为外国互联网公司准备的法规非常清楚,Google愿意遵守的时候。就进来了,当它觉得不愿意遵守的时候,就退出了。」 多年以后,华盛顿第二次推动TikTok法案的口径也变得很熟悉了,大伙别误会,没有封禁TikTok的意思,只要TikTok卖给美国公司就好了,你自己不卖,怪谁呢? 总之,Google退出之后,仍然续租了科建大厦的4层楼,因为即使国内业务没有了,国际业务也断不了,低调养着数百人的工程师和销售团队,用来对接中国企业的出海投放。 这是常年以来维持的最低限度的默契,Google偶尔还会在中国举办开发者大会,并将AlphaGo带去了乌镇和柯洁下围棋。 扎克伯格在翻脸之前,也当过西长安街上的跑步健将,虽然Facebook谈了不少入华框架——包括和百度合资落地——但都没有成功,不过这倒并不影响Facebook每年雷打不动的从中国拿走10%的广告收入。 Google的塌房,在时间线上更靠后一些,棱镜曝光,蜻蜓低飞,林林总总,祛魅不止,年轻人长大了,发现「不作恶」只是一个被光线投射的墙面,光源并不由Google提供。 就连OpenAI的成立契机,也是一群有抱负的工程师和科学家因为对于Google统治AI的共同厌恶而走到了一起。 在昔年的Google楼下,有一张卡片上手写了这样的语句:「重重大山阻隔不了我们之间的联络,无论距离多远,我们都会翻过围墙找到你。」 15年后,美国的TikTok难民们呼朋唤友的涌入小红书,那颗子弹终于呼啸而来,正中眉心。 年轻人的真诚和热忱,永远都是这个世界最不吝啬的馈赠。
阑夕
9个月前
阑夕
9个月前
听完扎克伯格在Joe Rogan Experience的3小时播客后,我理解了那条最高赞的评论在说什么: 这就是「对不起,我想站在胜利的一方」的样子。 this is what "im sorry, i wanna be on the winning side" looks like. 哈哈哈……还是简单总结一下这期节目效果炸裂的对谈吧。 - Meta正在全面停止所谓「事实核查」的制度,2016年的川普当选和英国脱欧两件事情,促使Facebook的运营团队开始基于意识形态管理内容; - 当时传统媒体的声望尚未滑落,扎克伯格身边的人,包括很多专业的记者,都对他说,川普的当选是因为他在社交媒体上散布虚假信息、是俄罗斯在幕后推动; - 扎克伯格说自己当时还是一个傻白甜,以为这些人都是抱着善意在期待他作为美国最大社交媒体的老板解决虚假信息泛滥的现象,于是接受了雇佣第三方事实核查机构来清理Facebook内容的建议; - 「然后事情就失控了」,扎克伯格以为事实核查只会针对那些真的和事实相关的骗局——就像是有人宣扬地球是平的这种——但绝大部分的核查对象都是政治性言论; - 拜登上任后,为了推动新冠疫苗接种率,曾经公开表示社交媒体放任错误的防疫信息传播「是在杀人」,从此来自白宫的施压剧增,虽然自己对疫苗持怀疑态度,但运营团队常被喊去开会,要求删除平台上的各种贴子; - 比如白宫会要求Facebook从全站删掉一张莱昂纳多·迪卡普里奥嘲笑新冠疫苗接种者的Meme梗图,让他觉得非常不对劲,因为这很明显属于「讽刺和幽默」的范畴; - 再后来演变成任何谈论疫苗有副作用的内容都要删掉,扎克伯格对此感到不可理喻,他也开始反思自己对于内容政策的忽视,他以为内容政策的目的是为了打击网暴或是盗版之类,没想到过去10年里基本上都是在强化意识形态监管,一不留神自己的公司就被夺舍了; - 总的来说,就是Meta在满足事实核查这条路上走得太远了,有点像「1984」里所隐喻的那种地步,这摧毁了人们对于美国的信任,所以他决定要做出改变; - 最优先的就是逐步取消和事实核查机构的合作,扎克伯格盛赞推特的「社区笔记」——也就是由全体用户对有争议的推文进行备注说明——是比Facebook好得多的治理模式,必须抄过来用; - 推特这种平台备受信任,并不是因为它有什么特别之处,只是愿意在这个时代提供发出真实声音的机会,包括播客越来越受欢迎也是,这些信任以前是被给予媒体的,直到媒体不再诚实为止; - Meta同时也决定终止DEI(多样性、公平和包容性)的内部项目,比如在招聘时回到以能力为主的判断标准,而不再对某些性别或是种族做出特别优待,所有的行为都应该回归常识; - 所以扎克伯格也把终极格斗赛事运营商UFC的老板达纳·怀特邀请到董事会里了,虽然大家都认为这是在讨好川普——达纳·怀特是川普多年以来的亲密盟友——但扎克伯格认为这是证明自己掌握公司权力的一种表现; - 此时扎克伯格突然上演了一段自证男子气概的独白,特别好笑:「我拥有公司的控制权,不需要谄媚董事会,这才是正常的企业环境,其他公司的CEO本质上都是在为董事会服务用以换来更高的薪酬,但我不用,我的收入不靠董事会来发,也不担心他们开除我,所以我有权选择招揽任何人,让最聪明的人来帮我解决问题。我就是要达纳·怀特加入!就要!没人拦得住我!」; - 接下来省略接近一个小时的关于柔术技巧、增肌训练、打猎捕鱼、带娃射箭的分享碎碎念,简单来说就是扎克伯格在非常努力的表现自己身体里跳动着一颗红脖的心; - Meta在AI领域坚持开源路线的原因是希望确保世界上存在一个公平的竞争环境,而不是由单一公司控制最好的大模型,代理型的AI进展速度很快,预计在今年Meta自家就会用上相当于中级工程师职位的编程智能体; - 乔布斯在2007年创造了iPhone,但剩下的接近20年时间里,苹果都是在吃老本,然后利用强势的市场地位来提高利润率,30%的苹果税是不合理的,只为AirPods提供连接iPhone的独家协议也是不合理的,iMessage出于安全理由不和其他通讯应用互通还是不合理的; - 售价3500美金的Vision Pro比售价400美金的Quest 3更糟糕,因为追求过高的性能,以致于佩戴起来太沉重了,降低了用户使用VR的欲望,在市场教育阶段,电子消费品的易用性要比参数重要得多,反正一家不懂得如何创新的公司迟早要玩,且听龙吟; - 全球化的公司都不可避免的要面临价值观冲突,扎克伯格知道自己可能会被巴基斯坦法院判处死刑——因为Facebook上有张不尊重先知默罕默德的图片——他虽然并不真的担心这件事情,但也会考虑以后坐飞机旅行是不是不该经过巴基斯坦的领空; - 因为不再配合政府监管了,Meta和华盛顿的关系变得非常敌对,好在法律的规则依然生效,Meta愿意上法庭打官司,并有信心赢得对政府的诉讼,信息镇压不是好东西,自由比正确珍贵太多,第一修正案万岁。
阑夕
10个月前
这几天刷推很明显的感觉到英文技术社区对中国AI产业的进步速度处于一种半震动半懵逼的状态,应激来源主要是两个,一个是宇树(Unitree)的轮足式机器狗B2-W,另一个是开源MoE模型DeepSeek-V3。 宇树在早年基本上属于是波士顿动力的跟班,产品形态完全照猫画虎,商业上瞄准的也是低配平替生态位,没有太大的吸引力,但从B系列型号开始,宇树的机器狗就在灵活性上可以和波士顿动力平起平坐了。 B2-W的意外在于切换了技术线,用运动性更高但平衡性同时也更难的动轮方案取代了B2还在沿用四足方案,然后在一年时间里完成了能在户外环境里跋山涉水的训练,很多美国人在视频底下说这一定是CGI的画面,不知道是真串还是心态炸了。 波士顿在机器狗身上也曾短暂用过动轮方案,或者说它测过的方案远比宇树要多——公司成立时长摆在那里——但是作为行业先驱,它连保持一家美国公司的实体都办不到了。 现代汽车2020年以打折价从软银手里买了波士顿动力,正值软银账面巨亏需要回血,而软银当初又是在2017年从Google那里买到手的,Google为什么卖呢,因为觉得太烧钱了,亏不起。 这理由就很离谱,美国的风险资本系统对于亏损的容忍度本来就是全球最高的,没有之一,对于前沿性的研究,砸钱画饼是再寻常不过了的——看这两年硅谷在AI上的投入产出比就知道了——但波士顿动力何以在独一档的地位上被当成不良资产卖来卖去? 那头房间里的大象,美国的科技行业普遍都装作看不到:美国人,如今的美国人,从投行到企业,从CEO到程序员,从纽约到湾区,对制造业的厌弃已经成为本能了。 A16Z的合伙人马克·安德森2011年在「华尔街日报」写了那篇流传甚广的代表作「软件吞噬世界」,大概意思是,边际成本极低的软件公司注定接管一切水草繁盛之地,和这种可以提供指数级增长的生意比起来,其他的行业都不够看。 并不是说马克·安德森的表达有问题,后面这十几年来的现实走向,也确实在证明这条攫取规模化利润的回报是最高的,但美国人的路径依赖到最后必然带来一整代人丧失制造能力的结果。 这里说的丧失制造能力,并不是说丧失制造兴趣或是热情,我前段时间拜访了深圳一家逆向海淘公司,业务就是把华强北的电子配件做成可索引的结构化目录,然后提供从采购到验货再到发包的全流程服务,最大的买方就是美国的DIY市场和高校学生,他们之所以要不远万里的等上几个星期委托中国人来买东西,就是因为在诺大的美国本土,根本找不到供应链。 然后那些学生也只有在读书时才有真正尝试制造某些东西的机会,到了要去大公司里上班领薪后,再也没人愿意把手弄脏了。 但软件终究不能脱离硬件运行,哪怕硬件生产的附加值再不够看,基于采集一手物理数据的入口,制造商腰板硬起来后去做全套解决方案,只取决于能不能组建好的工程师团队,反过来却不一样,制造订单长期外包出去,它就变成产业链配套回不来了。 所以像是多旋翼无人机和四足机器狗这类新兴科技萌芽的原型机一般都还是产自有着试错资本的欧美,也就是所谓「从零到一」的过程,而在「从一到十」的落地阶段,中国的追赶成果就会开始密集呈现,进入「从十到百」的量产之后,中国的供应链成本直接杀死比赛。 波士顿动力的机器人最早在网上爆火的时候,Google X的负责人在内部备忘录里说他已经和媒体沟通了,希望不要让视频和Google扯上太大关系,是不是很迷惑,这么牛逼的事情,你作为母公司非但不高兴,还想躲起来,现在你们懂得这种顾虑从何而来了,就是觉得贵为软件巨头的Google去卷袖子干制造的活儿太卑贱了呗。 当然美国也还有马斯克这样的建设者(Builder),但你要知道马斯克的故事之所以动人,是因为他这样的人现在是极度稀缺的,而且长期以来不受主流科技业界待见,完全是靠逆常识的成就——造汽车,造火箭,造隧道,这都是硅谷唯恐避之不及的事情——去一步步打脸打出来的名声。 如果说宇树是在硬件上引起了一波怀疑现实的热度,那么DeepSeek则在软件的原生地盘,把大模型厂商都给硬控住了。 在微软、Meta、Google都在奔着10万卡集群去做大模型训练时,DeepSeek在2000个GPU上,花了不到600万美金和2个月的时间,就实现了对齐GPT-4o和Claude 3.5 Sonnet的测试结果。 DeepSeek-V2在半年前就火过一波,但那会儿的叙事还相对符合旧版本的预期:中国AI公司推出了低成本的开源模型,想要成为行业里的价格屠夫,中国人就擅长做这种便宜耐用的东西,只要不去和顶级产品比较,能用是肯定的。 但V3则完全不同了,它把成本降了10倍以上,同时质量却能比肩t1阵营,关键还是开源的,相关推文的评论区全是「中国人咋做到的?」 虽然但是,后发的大模型可以通过知识蒸馏等手段实现性价比更高的训练——类似你学习牛顿三定律的速度降低的斜率也在有利于追赶者,肯定比牛顿本人琢磨出定律的速度要快——成本,但匪夷所思的效率提升,是很难用已知训练方法来归纳的,它一定是是在底层架构上做了不同于其他巨头的创新。 另一个角度更有意思,如果针对中国的AI芯片禁售政策最后产生的后果,是让中国的大模型公司不得不在算力受限的约束下实现了效率更高的解决方案,这种适得其反的剧情就太讽刺了。 DeepSeek的创始人梁文锋之前也说过,公司差的从来都不是钱,而是高端芯片被禁运。 所以中国的大模型公司,像是字节和阿里这样的大厂,卡能管够,把年收入的1/10拿出来卷AI,问题不大,但初创公司没这么多弹药,保持不下牌桌的唯一方法就是玩命创新。 李开复今年也一直在表达一个观点,中国做AI的优势从来不是在不设预算上限的情况下去做突破性研究,而是在好、快、便宜和可靠性之间找出最优解。 零一和DeepSeek用的都是MoE(混合专家)模式,相当于是在事先准备的高质量数据集上去做特定训练,不能说在跑分上完全没有水分,但市场并不关心原理,只要质价比够看,就一定会有竞争力。 当然DeepSeek不太一样的是,它不太缺卡,2021年就囤了1万张英伟达A100,那会儿ChatGPT还没影呢,和Meta为了元宇宙囤卡却阴差阳错的赶上AI浪潮很像,DeepSeek买那么多卡,是为了做量化交易⋯⋯ 我最早对梁文锋有印象,是「西蒙斯传」里有他写的序,西蒙斯是文艺复兴科技公司的创始人,用算法模型去做自动化投资的开创者,梁文锋当时管着600亿人民币的量化私募,写序属于顺理成章的给行业祖师爷致敬。 交待这个背景,是想说,梁文锋的几家公司,从量化交易做到大模型开发,并不是一个金融转为科技的过程,而是数学技能在两个应用场景之间的切换,投资的目的是预测市场,大模型的原理也是预测Token。 后来看过几次梁文锋的采访,对他的印象很好,非常清醒和聪明的一个人,我贴几段你们感受一下: 「暗涌」:大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做研究探索? 梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。 「暗涌」:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。 梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。 「暗涌」:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。 梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。 「暗涌」:但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么? 梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。 「暗涌」:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里? 梁文锋:V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。 「暗涌」:所以你对这件事也是乐观的? 梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。 ⋯⋯ 是不是很牛逼?反正我是被圈粉了,做最难的事情,还要站着把钱赚了,一切信念都基于对真正价值的尊重和判断,这样的80后、90后越来越多的站上了主流舞台,让人非常宽慰,你可以说他们在过去是所谓的「小镇做题家」,但做题怎么了,参与世界未来的塑造,就是最有挑战性的题,喜欢解这样的题,才有乐趣啊。