勃勃OC
1个月前
AI基建泡沫之争正式爆发: 11月11日,Michael Burry在其社交平台发帖称,科技巨头通过延长资产的“有效使用寿命”来低估折旧,从而人为地抬高收益。他估计从2026年到2028年,大型科技公司将因低估折旧而虚增1760亿美元的利润。 Burry承诺将在11月25日披露更多细节。他特别指出,到2028年,甲骨文的利润可能被夸大26.9%,而Meta的利润可能被夸大20.8%。 Burry认为科技巨头正在会计处理上玩“把戏”。 他在其X平台的帖子中指出,科技巨头们通过延长资产的“有效使用寿命”来低估折旧,从而人为地抬高收益,而这是“现代最常见的欺诈之一”。 他认为,在科技公司大规模采购英伟达芯片和服务器以扩充算力的背景下,这些通常只有2至3年产品周期的计算设备,其折旧年限不应被延长。 然而,包括Meta、Alphabet、微软、甲骨文和亚马逊在内的“超大规模”玩家们却正是这么做的,一些公司甚至将折旧周期延长至6年。 美银也认为,华尔街对未来折旧费用的增长速度“反应迟钝”。 美银分析师Justin Post在报告中指出,随着谷歌、Meta和亚马逊的资本支出在2024年和2025年大幅增长,其折旧费用必然会在2026年后加速。 据其测算,到2027年,仅这三家公司的折旧费用,市场普遍预测就可能比实际情况低了近164亿美元,这意味着它们未来的实际盈利能力或远低于当前的市场共识。 此外,AI资产的“短寿”问题加剧了这一风险。用于AI计算的GPU等硬件技术迭代快、负荷高,有效寿命可能仅为三到五年。这一趋势与科技巨头延长设备使用年限的做法背道而驰。 摩根士丹利的研究则强调科技巨头AI资本开支强度正逼近互联网泡沫时期的峰值水平,但公开数据并未完全反映投资全貌。 摩根士丹利强调,两大因素导致了实际投资规模被低估。 首先是融资租赁的兴起。微软和甲骨文等公司正越来越多地通过此种“表外”工具建设数据中心,其初始投资不计入传统的资本支出。 据该行估算,计入融资租赁后,微软2026财年的资本支出与销售额之比将从28%跃升至38%。 其次是“在建工程(CIP)”的延迟效应,大量已支出的资本沉淀在资产负债表上,尚未开始计提折旧,其对利润的冲击才刚刚开始。 美国银行则警告称,AI基础设施市场可能重演历史上因激进投资导致产能过剩和价格战的模式。 美银认为,如果供应增长持续超过需求,最早在2027年,行业内可能会爆发更激进的定价策略。 届时,为了维持数据中心的利用率,超大规模厂商可能被迫降价,从而侵蚀其盈利能力。这一预测,也为Burry关于科技巨头盈利能力虚高的观点提供了另一层面的佐证。
fin
1个月前
AI泡沫论,继循环投资/左脚踩右脚的故事淡化后,终于又迎来了新论据,这次轮到了GPU折旧问题 这次的叙事很简单,在几个主流CSP的财务报表里,GPU折旧年限很多都是平摊到6年来算 但是GPU使用寿命可能只有2~3年,那么这样做账就会让纸面上利润率虚高,而实际上AI云利润太低就是吹泡泡 真的是这样吗? ------------------------ 首先我们要来看看,GPU实际使用寿命2~3年这个说法是哪里来的 目前比较靠谱的溯源基本上指向了公开的Llama3的技术报告 Meta在2024年训练Llama 3.1 405B模型时,使用了16,384个H100 GPU,训练时长54天。在这期间记录了: 466次中断(interruptions),其中419次是非计划故障​ 平均每3小时发生一次故障​ 有效训练时间维持在90%以上 根据Meta的这次54天训练数据推算,年化GPU故障率(AFR)约9%​,最保守的估算,3年累计故障率约27%(超过1/4的GPU会在3年内失效) 虽然实际上肯定是用的时间越长故障率会更高,因为高负载导致的高温会更容易产生failure 所以训练用的GPU2~3年寿命并不是空穴来风,毕竟同步训练的脆弱性决定了AI训练过程要求单个GPU故障就能导致整个作业停止 另一个佐证就是,曾经GPU挖矿的矿卡,三年报废率也是很可观的,挖矿和训练的共通之处在于GPU利用率都很高 在这个Llama3技术报告之外,所有CSP,包括Azure,GCP,AWS的这类数据都是保密的,毕竟这个故障率直接关系到运营成本和服务质量,算是商业机密。 ----------------------------------------- 确认了折旧率数据来源,接下来就要说“但是”了 -------- 1. 是不是训练用的GPU寿命都一直会这么短? 首先Meta这个训练数据推算是按中断次数算的,但并不是每次中断都 = 1 GPU 坏了 实际上即便是现在的训练用GPU,中断故障率都比以前训练要低了,以前几乎每一两小时都要中断,现在每天中断几次,相比之下好一些 部分原因是validation的自动化流程做的更好了,训练时的硬件故障中断,其实有不少是重复来自于少数体质敏感易坏的GPU。于是Nvidia也一直在优化validation流程,在训练之前的测试做的更好,剔除掉这些易坏的GPU 所以现在的GPU年故障率AFR跟以前比已经低不少了,我的估算可能是<6% --------- 2. 一个更容易被忽视的问题是,训练用的GPU和推理用的GPU,折旧率是否一样? 很显然是不一样的,推理用的GPU年折旧率一般要低的多,原因是推理的平均负荷要小得多,不会因为持续性高负载高温,对延长寿命是有帮助的,一般年故障率都不会到3%甚至更低(<2%),这部分GPU的寿命以6年算,是完全符合实际情况的 那么在云上训练和推理GPU的比例如何,就决定了平均寿命折旧如何 推理GPU的比例其实是快速上升的,和训练GPU比起来,不管是模型公司还是云公司的利润其实主要也来自于推理,而长远来看,推理的比例是一定会远高于训练的 所以GPU长线按5~6折旧年限来记账,仔细来看并没有太过分 作为佐证,现在只要不是公司里最重要的部门,要做AI推理就只能用五年前的A100而并没有寿终正寝,是很常见的现象 ---------- 3. 技术的快速迭代,会让GPU在三四年之后,因为TCO使用成本占劣势而被淘汰吗? 这相当于是让GPU的残值可以忽略,比如现在A100用起来综合成本不如用最新的,所以会被淘汰吗? 今天CRWV的财报里,CEO的回答算是直接否定了这个说法: "Let me provide a tangible example of our customer relationships and the durability of our platform. We had a large, multi-year contract up for renewal in 2026." (我来提供一个关于我们客户关系和平台持久性的具体例子。我们有一个大型的多年期合同,原定于 2026 年续约。) "Two quarters in advance, the customer proactively recontracted for the infrastructure at a price within 5% of the original agreement." (客户提前两个季度,主动以原协议价格 5% 以内的价格续签了基础设施合同”) H100在合同结束之后,新合同仍然能卖到原来合同95%的价格(看到这里其实我挺惊讶的,H100的租价其实还是下降了不少的),而且连A100也全都卖光了 所以在算力紧缺供不应求的时代,这个前代GPU得不到利用从而报废的担心,在短期的几年内可能都不是太大问题 ---------------------------------------------- GPU折旧问题似乎不是大问题了,是不是意味着AI泡沫就不存在了? 如果有泡沫,那么会以什么形式出现,会从哪里出现? 我们可以从底层逻辑和互联网泡沫比较,来看这个问题 简单的说 互联网:基建端基本独立运营,基建和应用是解耦的,需求是脱节的,基建过度价格崩塌,泡沫破裂的很惨 。价值全产生在应用端公司,形成了生态错位 AI:应用端驱动基建,因为应用被基建严重限制规模,从而被迫投资基建端,算力一直紧缺 互联网的泡沫主要在基建端,大量的光纤建设之后都没人用(97%),但是AI泡沫里GPU基建却成了瓶颈,基建显然不是同一种泡沫 基建紧缺到什么程度? CRWV的订单backlog从30B直接涨到55B,各个CSP的backlog(以RPO为算,一般来说会有5~15%的丢单率)也在快速上涨 从CSP,到芯片,到数据中心DC,到电力,到存储,所有人都在喊订单挤压的太多甚至几倍,很多产业链的环节2026年全部售罄,根本做不完。 硅谷公司里基本上只要是跟AI相关的组,都背负了很重的指标,被压榨累成狗,即便是以前文化很好的NVDA也变内卷了很多 这次的需求全部是从App应用端来的,从App -> 云 -> DC数据中心 -> 芯片一层层传导,而且大家都对泡沫很忌惮,有多少订单准备多少产能(除了少数冒险家CRWV/ORCL/META),和互联网泡沫最大的区别在于,基建目前并没有超出需求建设 风险也是有的,毕竟App应用端太多创业烧的是VC的钱,这正是泡沫形成的绝佳背景。但目前来看,垂直类应用端还是有很多毛利率和增长率都很不错的代表的(比如Harvey) 所以如果真的有泡沫,目前来看只有可能来自App应用端的需求减弱 一个反直觉的悖论,App端的泡沫在于AI/Agent发展迭代的不够快!做出的东西不够好,导致营收增速跟不上 AI/Agent发展不够快,在广大行业渗透不够又部分是因为算力不够 于是为了维持泡沫不破,算力投资和军备竞赛又会继续加强 然后App端会出现大量输家被淘汰,因为算力投入而破产,这可能就是泡沫破裂的形式 这和互联网时代基建公司大量破产形成了鲜明对比 最后决出的几家寡头,有一定营收,依然会大力投入算力基建,期待赢家通吃 这就导致了AI泡沫和互联网的泡沫破裂方式可能是不同的,下游的基建风险并不大,而泡沫更偏向App应用端 另一个简单的比较方式:看谁在举债,泡沫破裂就在哪里 互联网泡沫,举债的更多在基建端,价值捕获更多在App端 AI泡沫,价值捕获在App应用端,而举债的也更多在应用端(以及云) 但反过来说,如果OpenAI和Anthropic能继续维持三年3~9倍的营收增速,基建维持5年供不应求的超级周期,并不是天方夜谭的事情 --------------------- 算力把时间借给了应用,终究要用增长归还;还不上的,就是泡沫。能还清的,就是点亮文明的下一座灯塔
奥特曼:合着我不建机房你们就不发新模型咯? 给大家带来月之暗面在 Reddit 的 AMA (Ask Me Anything) 的爆料内容!信息量巨大! 首先最大的猛料莫过于 ComfortableAsk449 (小道消息是这位是杨植麟) 回应 Kimi-K3 什么时候发布说 "我们会在奥特曼的万亿美元数据中心建成之前发布"哈哈哈哈 言归正传, 给大家总结这次精华内容, 我觉得说了很多之前大家不知道的事情: 首先, 460万美元训练成本只是传言, 但可以肯定训练成本不会特别高, 官方团队爆料训练使用H800 GPU + Infiniband,数量比美国高端 GPU 少,但充分利用每张卡. int4 精度大家都知道了, 选择 int4 对非 Blackwell GPU 更友好,可以用 marlin 内核. 关于 Kimi K3, 很可能会在 K3 中采用 KDA 相关思想, 并中融入重大架构变化开发新能力, 根据社区观察,每两个月第一个周五发布(预测 2026年1月9日). 其他新模型方面, 目前社区呼声最高的是3B到48B这个区间, 100-120B MoE 社区也强烈需求. 另外透露可能会有新的视觉语言模型! (之前也有Kimi-VL) 技术方面, KDA + NoPE MLA 比 full MLA + RoPE 表现更好, Muon 优化器首次在1T参数规模得到了验证. K2 Thinking 使用端到端代理强化学习训练. 团队曾做过 1M 上下文窗口(当时成本太高),未来版本会增加上下文长度(目前256K). 团队承认当前版本优先性能而非 token 效率, 正在积极改进,会将效率纳入奖励函数. 其他消息还包括, OK Computer 马上也要上 kimi-k2-thinking 版本, 当前写作风格是特调的, 避免谄媚和过度积极. #moonshotAI #kimik2 #kimik3 #kimivl #AMA