时政
财经
科技
虚拟货币
其他
登录
#GPU折旧
关注
洛克船长
1个月前
英伟达的财报太亮眼了,买卖做到这份上也是没谁了。 真正焦虑的是这些AI服务商,GPU 折旧危机是 AI 时代最残酷的悖论:你必须不断奔跑,才能留在原地。 数十亿美元投入的数据中心,在下一代芯片发布的瞬间就面临贬值风险。这简直就是时间的诅咒。 不过可能也有新机会,就是可以将旧硬件转化为新价值的公司
英伟达市值破四万亿,AI芯片霸主地位稳固?· 216 条信息
#英伟达
#AI服务商
#GPU折旧
#数据中心贬值
#硬件转化价值
分享
评论 0
0
RamenPanda
1个月前
半导体内行Fin神有关AI的所有高认知观点,AI总结: - **AI 泡沫性质** - 核心观点:与互联网泡沫不同:AI 是应用端驱动基建,基建紧缺而非过剩;泡沫可能在 App 端(需求兑现慢)。 - 支撑论据:互联网基建解耦导致 97% 光纤闲置;AI 中 CRWV backlog 从 30B 涨到 55B,需求传导自 App → 云 → DC → 芯片。 - 风险警示:App 端泡沫源于 AI/Agent 迭代慢;渗透率近 50% 时增速放缓,可能引发砍单潮(类似 Cisco 泡沫)。 - **GPU 折旧与寿命** - 核心观点:折旧不是大问题:训练 GPU 寿命 2-3 年(AFR <6%),推理 5-6 年;整体按 5-6 年合理。 - 支撑论据:Meta Llama3 报告:年化 AFR 9%;CRWV 财报:旧 H100 续约价仅降 5%,A100 卖光。 - 风险警示:若按 6 年折旧而实际寿命短,可能虚高利润(灰犀牛);技术迭代导致 TCO 劣势,但短期供不应求。 - **基建投资与 Capex** - 核心观点:公司激进转向 Capex(Meta 38%、MSFT 33%),挤压 Opex 导致裁员;半导体利润超互联网成新常态。 - 支撑论据:Amazon 裁 3 万省 60B 买 GPU,云增速从 18% 提至 24%;Nvidia 投资伙伴推动 Capex。 - 风险警示:电力/并网瓶颈(矿转 AI 如 CORZ);举债风险(如 ORCL);泡沫破灭在 App 端而非基建。 - **公司策略** - 核心观点:OpenAI 平衡:10GW NV、10GW ASIC、6GW AMD;AMD 激进 PIM 技术;Meta all-in 但常错节奏。 - 支撑论据:AMD ROCm 进步,但软件栈慢;Oracle 可能入 ASIC 市场(传闻)。 - 风险警示:Zuck 运气好(Reels GPU 转 LLM),但风格折腾(Libra、VR);AMD 需成熟 ASIC 抢推理份额。 - **就业与社会影响** - 核心观点:AI 提效有限(大厂 15-20%);就业压力更多来自 Capex 挤压,而非纯提效。 - 支撑论据:Agent 操作猛但目标仅 20% 效率;SDE 买 Nvidia 对冲被 GPU 挤出价值链。 - 风险警示:结构性失业潮(非大规模);AI 通缩性(抑制通胀);端侧 AI 需 7-10 年演进。 - **技术趋势** - 核心观点:存储周期早期(HDD/SSD 紧缺);AI 推理成本不降(体验优先,如手机功耗)。 - 支撑论据:WDC/Hynix 财报:推理比例升;渗透率 10%-50% 最快增长阶段。 - 风险警示:Token 消耗量成文明标志;人 + AI > AI(开放问题需人简化)。
英伟达市值破四万亿,AI芯片霸主地位稳固?· 216 条信息
#AI泡沫
#GPU折旧
#基建投资
#公司策略
#就业影响
#技术趋势
分享
评论 0
0
fin
1个月前
AI泡沫论,继循环投资/左脚踩右脚的故事淡化后,终于又迎来了新论据,这次轮到了GPU折旧问题 这次的叙事很简单,在几个主流CSP的财务报表里,GPU折旧年限很多都是平摊到6年来算 但是GPU使用寿命可能只有2~3年,那么这样做账就会让纸面上利润率虚高,而实际上AI云利润太低就是吹泡泡 真的是这样吗? ------------------------ 首先我们要来看看,GPU实际使用寿命2~3年这个说法是哪里来的 目前比较靠谱的溯源基本上指向了公开的Llama3的技术报告 Meta在2024年训练Llama 3.1 405B模型时,使用了16,384个H100 GPU,训练时长54天。在这期间记录了: 466次中断(interruptions),其中419次是非计划故障 平均每3小时发生一次故障 有效训练时间维持在90%以上 根据Meta的这次54天训练数据推算,年化GPU故障率(AFR)约9%,最保守的估算,3年累计故障率约27%(超过1/4的GPU会在3年内失效) 虽然实际上肯定是用的时间越长故障率会更高,因为高负载导致的高温会更容易产生failure 所以训练用的GPU2~3年寿命并不是空穴来风,毕竟同步训练的脆弱性决定了AI训练过程要求单个GPU故障就能导致整个作业停止 另一个佐证就是,曾经GPU挖矿的矿卡,三年报废率也是很可观的,挖矿和训练的共通之处在于GPU利用率都很高 在这个Llama3技术报告之外,所有CSP,包括Azure,GCP,AWS的这类数据都是保密的,毕竟这个故障率直接关系到运营成本和服务质量,算是商业机密。 ----------------------------------------- 确认了折旧率数据来源,接下来就要说“但是”了 -------- 1. 是不是训练用的GPU寿命都一直会这么短? 首先Meta这个训练数据推算是按中断次数算的,但并不是每次中断都 = 1 GPU 坏了 实际上即便是现在的训练用GPU,中断故障率都比以前训练要低了,以前几乎每一两小时都要中断,现在每天中断几次,相比之下好一些 部分原因是validation的自动化流程做的更好了,训练时的硬件故障中断,其实有不少是重复来自于少数体质敏感易坏的GPU。于是Nvidia也一直在优化validation流程,在训练之前的测试做的更好,剔除掉这些易坏的GPU 所以现在的GPU年故障率AFR跟以前比已经低不少了,我的估算可能是<6% --------- 2. 一个更容易被忽视的问题是,训练用的GPU和推理用的GPU,折旧率是否一样? 很显然是不一样的,推理用的GPU年折旧率一般要低的多,原因是推理的平均负荷要小得多,不会因为持续性高负载高温,对延长寿命是有帮助的,一般年故障率都不会到3%甚至更低(<2%),这部分GPU的寿命以6年算,是完全符合实际情况的 那么在云上训练和推理GPU的比例如何,就决定了平均寿命折旧如何 推理GPU的比例其实是快速上升的,和训练GPU比起来,不管是模型公司还是云公司的利润其实主要也来自于推理,而长远来看,推理的比例是一定会远高于训练的 所以GPU长线按5~6折旧年限来记账,仔细来看并没有太过分 作为佐证,现在只要不是公司里最重要的部门,要做AI推理就只能用五年前的A100而并没有寿终正寝,是很常见的现象 ---------- 3. 技术的快速迭代,会让GPU在三四年之后,因为TCO使用成本占劣势而被淘汰吗? 这相当于是让GPU的残值可以忽略,比如现在A100用起来综合成本不如用最新的,所以会被淘汰吗? 今天CRWV的财报里,CEO的回答算是直接否定了这个说法: "Let me provide a tangible example of our customer relationships and the durability of our platform. We had a large, multi-year contract up for renewal in 2026." (我来提供一个关于我们客户关系和平台持久性的具体例子。我们有一个大型的多年期合同,原定于 2026 年续约。) "Two quarters in advance, the customer proactively recontracted for the infrastructure at a price within 5% of the original agreement." (客户提前两个季度,主动以原协议价格 5% 以内的价格续签了基础设施合同”) H100在合同结束之后,新合同仍然能卖到原来合同95%的价格(看到这里其实我挺惊讶的,H100的租价其实还是下降了不少的),而且连A100也全都卖光了 所以在算力紧缺供不应求的时代,这个前代GPU得不到利用从而报废的担心,在短期的几年内可能都不是太大问题 ---------------------------------------------- GPU折旧问题似乎不是大问题了,是不是意味着AI泡沫就不存在了? 如果有泡沫,那么会以什么形式出现,会从哪里出现? 我们可以从底层逻辑和互联网泡沫比较,来看这个问题 简单的说 互联网:基建端基本独立运营,基建和应用是解耦的,需求是脱节的,基建过度价格崩塌,泡沫破裂的很惨 。价值全产生在应用端公司,形成了生态错位 AI:应用端驱动基建,因为应用被基建严重限制规模,从而被迫投资基建端,算力一直紧缺 互联网的泡沫主要在基建端,大量的光纤建设之后都没人用(97%),但是AI泡沫里GPU基建却成了瓶颈,基建显然不是同一种泡沫 基建紧缺到什么程度? CRWV的订单backlog从30B直接涨到55B,各个CSP的backlog(以RPO为算,一般来说会有5~15%的丢单率)也在快速上涨 从CSP,到芯片,到数据中心DC,到电力,到存储,所有人都在喊订单挤压的太多甚至几倍,很多产业链的环节2026年全部售罄,根本做不完。 硅谷公司里基本上只要是跟AI相关的组,都背负了很重的指标,被压榨累成狗,即便是以前文化很好的NVDA也变内卷了很多 这次的需求全部是从App应用端来的,从App -> 云 -> DC数据中心 -> 芯片一层层传导,而且大家都对泡沫很忌惮,有多少订单准备多少产能(除了少数冒险家CRWV/ORCL/META),和互联网泡沫最大的区别在于,基建目前并没有超出需求建设 风险也是有的,毕竟App应用端太多创业烧的是VC的钱,这正是泡沫形成的绝佳背景。但目前来看,垂直类应用端还是有很多毛利率和增长率都很不错的代表的(比如Harvey) 所以如果真的有泡沫,目前来看只有可能来自App应用端的需求减弱 一个反直觉的悖论,App端的泡沫在于AI/Agent发展迭代的不够快!做出的东西不够好,导致营收增速跟不上 AI/Agent发展不够快,在广大行业渗透不够又部分是因为算力不够 于是为了维持泡沫不破,算力投资和军备竞赛又会继续加强 然后App端会出现大量输家被淘汰,因为算力投入而破产,这可能就是泡沫破裂的形式 这和互联网时代基建公司大量破产形成了鲜明对比 最后决出的几家寡头,有一定营收,依然会大力投入算力基建,期待赢家通吃 这就导致了AI泡沫和互联网的泡沫破裂方式可能是不同的,下游的基建风险并不大,而泡沫更偏向App应用端 另一个简单的比较方式:看谁在举债,泡沫破裂就在哪里 互联网泡沫,举债的更多在基建端,价值捕获更多在App端 AI泡沫,价值捕获在App应用端,而举债的也更多在应用端(以及云) 但反过来说,如果OpenAI和Anthropic能继续维持三年3~9倍的营收增速,基建维持5年供不应求的超级周期,并不是天方夜谭的事情 --------------------- 算力把时间借给了应用,终究要用增长归还;还不上的,就是泡沫。能还清的,就是点亮文明的下一座灯塔
#AI泡沫
#GPU折旧
#算力紧缺
#应用端风险
#Meta Llama3
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞