一块H100 GPU里,光是那8颗HBM3e内存,成本就超过4000美元,占整卡近一半!而这些HBM全靠三星、SK海力士、美光三家供应,产能卡得死死的。2024年底到2025年,HBM价格直接翻倍,而且有钱都未必买得到。 这种情况下,英伟达将会十分被动,对利润率无疑是致命伤害: → 英伟达的毛利率可能被压; → 云厂商(比如微软、Meta)可能因为成本太高,放缓AI服务器采购; → 更糟的是,如果地缘政治一紧张,HBM断供,整个AI算力扩张就可能“断电”。 假如你作为英伟达股东,可能也比较担心,英伟达虽然“技术无敌,但最后可能被一颗内存芯片卡脖子”。 所以Groq解决方案就显得尤为重要,它不用HBM,全靠片上SRAM。他们的芯片不接外部HBM,而是把220MB的SRAM直接集成在芯片上,相当于把“小仓库”建在工厂车间里,不用跑老远去大仓库(HBM)搬货。结果是:延迟极低、推理速度飞快、功耗还低。 虽然这种设计做不了大模型训练(因为SRAM容量有限),但干推理?简直降维打击。比如跑Llama2-70B,Groq能飙到500+ tokens/秒,比很多GPU都快,而且不用抢HBM。 所以看到这里就明白了,英伟达怒砸200亿,挖人挖技术,其实英伟达不是要复制Groq,而是要把这种“无HBM依赖”的技术路线变成自己的Plan B。万一HBM真出问题,它手里就有备胎,甚至可能推出新一代低HBM依赖的推理芯片,专攻边缘AI、实时服务、金融风控这些高价值场景。 更重要的是,Groq有一支“编译器梦之队”。硬件再强,也得靠软件跑起来。Groq最牛的地方,不是芯片,而是它的编译器。它能把AI模型“完美翻译”成芯片能高效执行的指令,硬件利用率接近100%。而传统GPU因为架构太通用,调度复杂,实际利用率常常打七折。 英伟达有CUDA护城河,但在推理端,TensorRT、Triton这些工具还不够“极致”。现在把Groq的编译器团队挖进来,等于直接空降一支特种部队,帮它把软件栈再提一代。未来你用英伟达的推理芯片,可能又快又省电,还不贵,这才是真正的生态壁垒。 最妙的是,英伟达没吞掉Groq,而是让它继续独立运营。这样做有两个好处,第一,Groq还能继续对外卖服务(比如GroqCloud),验证技术;第二避免反垄断审查,也避免吓跑其他潜在合作方。 对持有英伟达的股东来说,这就像吃了一剂定心丸,既防住了Groq未来变成竞争对手(它本来在云厂商里已经有口碑了),又把它的核心能力吸收到自己体内。黄仁勋这招,可谓是“借壳练功,不留后患”。 从这次200亿的投资合作,能看出来黄仁勋的眼光之犀利,这也极大增强了我对英伟达“抗供应链风险能力”的信心。我们投 #NVDA,从来不只是赌GPU销量,而是赌它能持续定义AI算力的未来。现在它在内存墙、软件栈、人才储备上全维度加固,说明管理层比市场想得更远。 中短期HBM继续涨价,可能还会存续一段时间(如👇图3),毕竟让英伟达都感觉到紧迫感,不容小觑。目前内存涨价和硬盘涨价,还在持续当中,这里利好美股三家企业,分别是美光科技(#MU),希捷科技(#STX),西部数据(#WDC)