#AI生态

我这两天仔细研究了一下Google的TPU,简单写一下我的初步结论: 1. Google TPU在特定的场景下,例如超大规模模型训练(万卡)和推理上,能效比超过了同等算力的英伟达GPU,能效比应该至少提升30%,也有说更高的。 为啥TPU强? 除了TPU是更有针对性的ASIC之外,TPU为大规模并行计算做了硬件的优化(光互联)和软件的优化(JAX/XLA),从理论上就优于更加考虑通用性和兼容性的GPU。 2. Google的TPU也拥有一个虽然规模小很多,但是完整的软硬件生态,就是JAX/XLA/TPU,类似于英伟达的Pytorch/CUDA/GPU。 如果说英伟达的生态是PC/Windows组合的话,Google就是Mac/MacOS组合。英伟达是大众普及型,兼容性好,市占率高;而Google是小众的,兼容性差,专业用户心头好。 只有那些极致追求性能,并且需要超大规模训练和推理的厂商有必要使用JAX/XLA/TPU,其他人其实没啥必要,得不偿失。 当然Mac机也可以跑Windows,PC机也可以装MacOS,所以马斯克的xAI虽然使用英伟达的H100 GPU,但用的是JAX,为了追求极致的压榨性能。 3. 想要自研AI芯片的,你得能搞出来一整套JAX/XLA/TPU来。Google搞TPU和Tensorflow/JAX有好多年历史了。其他想要复制Google自研芯片的,无论是AMZN,MSFT,META,我的判断是:没戏! 因为你不是找AVGO设计ASIC芯片那么简单的事情,你要配合设计XLA编译器,设计JAX这样的并行计算框架,现有的软件还要适配和兼容,那就不是两三年可以搞定的。更何况AMZN,MSFT,META自己训练模型都没搞出来啥成果,你还搞更底层的?不配啊! 所以结论:Google的成功不可复制。 4. Google会不会卖TPU,冲击英伟达的主营业务? 从逻辑上来说基本不可能。因为TPU只有在超大规模训练和推理上有明显优势,但兼容性差,会JAX的程序员也少,编程门槛还很高。因此TPU在非大型客户市场,根本不具备竞争力。 而大型的潜在客户无非就是那几个:OpenAI,Anthropic,AMZN,MSFT,META,xAI,Oracle。不是大模型厂商,就是云厂商。 OpenAI是Google的模型直接竞争对手,AMZN和MSFT是Google的云市场直接竞争对手,你说Google会不会资敌?我说不会。 而xAI呢,马斯克和OpenAI,Google都是死敌。 Anthropic倒是Google投资的,所以Anthropic租用Google云的TPU训练Claude模型。而META现在求着Google想买TPU,这两家竞争关系不那么强,我猜大概率也不会卖。 这么算下来,其实直接卖TPU没多少市场的。所以Google的现在做法就是在云上卖TPU算力,这个就香多了。想追求极致能效比的大规模推理,又不想自己建机房的,用Google云服务不就是最好的吗? 5. 对英伟达的冲击:有,但是没有那么强。 前面说了,Google的成功不可复制。所以其他客户还是会买英伟达。真正减少的市场份额主要是两类: 1. Google自己会减少对英伟达GPU的采购需求; 2. 租用Google云端TPU的厂商,例如Anthropic会减少对英伟达GPU的采购需求; 所以英伟达在未来的2-3年内,可能统治力会稍有下降,例如AI算力芯片的市占率从90%缓慢下滑到80%左右。但我认为并不会改变英伟达的商业逻辑。 就像苹果Mac电脑的普及,虽然让Windows的市占率从99%下降到了90%。但不改变Windows的垄断格局。最终颠覆Windows的是PC市场饱和了,然后手机市场兴起了。 6. Google确实现在很厉害,非常厉害 1. AI算力上,在超大规模的模型训练和推理方面,拥有了完整的生态闭环:JAX/XLA/TPU,不输英伟达; 2. AI Infra上,Google Cloud虽然市占率不如AMZN和MSFT,但成长速度很快。而且TPU的租赁费用相比GPU还有价格优势; 3. AI模型上,Gemini 3在很多方面完全不输GPT-5.1,甚至有超越,基于云成本优势,Gemini可以提供更便宜的API调用价格,这样反过来还能提供Gemini优势; 4. AI产品上,搜索+AI Mode;知识产品Notebook LM;还有生成式UI这样惊艳的创意。考虑到Google海量的C端用户体量,实际上非常有希望。 关键是Google在以上的AI领域形成了一个从硬件、基础设施、模型和产品的完整闭环,还能互相加强。 所以我的结论就是:在英伟达已经有不小仓位的情况下,我打算把本来加仓英伟达的钱留给Google了。
北火
1周前
Nvidia 不是 AI 的领导者,它是一个供应商。就像 Home Depot 之于家装行业一样,它的业绩高度依赖下游生态的繁荣程度。而下游生态要健康繁荣,最终还是要靠终端消费者的真实需求来支撑,不能靠加杠杆的贷款,更不能主要依赖来自上游的投资。 从这个角度看,Nvidia 最新财报里那句“毛利率超过 70%”其实很耐人寻味。这个数字的大小,更多反映的是当前需求的急迫程度,而未必能证明整个 AI 生态已经足够繁荣、可持续。如此大规模的基础设施建设会持续多久?Nvidia 的营收还能冲到什么高度?没有人说得准,而市场最喜欢的东西恰恰是“确定性”。 这并不是说,现在被讨论得很多的“循环贷”模式就一定是泡沫。在早期阶段,上下游通力合作,甚至用一点“左脚踩右脚”的方式,把整个生态先搭起来,本身并没有什么不对。问题在于,风险市场会天然地质疑一切不确定性,所以 AI 生态必须尽快从这种高度依赖上下游融资与合作的模式,走向由真实终端需求驱动的下一阶段。否则,短期内被市场抛售,也完全说得过去。 回想互联网泡沫,最终成为长期赢家的,也不是当年最风光的 Cisco。AI 时代真正的领导者,一定是那些能用 AI 服务最广大消费者的公司,比如 Google。除非 Nvidia 自己转型做面向终端的大规模 AI 服务,否则它和整个 AI 生态之间存在一个天然的、很难调和的矛盾:成本。 我相信,AI 未来会是一个比互联网大出几个数量级的存在。而在这样量级的生态里,主导者必然会在上下游的每一个环节上不断压缩成本。如果你了解过 Google 是如何和宽带提供商博弈、压榨带宽成本的,就会明白:只负责“造铲子”,远远不足以保证基业长青。 再回到普通消费者的视角:你觉得用户是更在意自己用的 AI 背后跑的是不是 Nvidia 的芯片,还是更在意 iOS 上的 Siri 能不能听得懂人话、真正帮上忙?回答了这个问题,你大概也就能勾勒出,未来 AI 生态真正的主导者,会是一类怎样的公司。 最后,如果你只想要一个简单结论,那就是:投资 Nvidia 的时候,你要清楚自己到底在投资什么,要明白决定股价的,从来不只是业绩本身,还有市场上各方参与者的博弈与预期。 哦,当然,这个世界上总有一群人,只看得懂最简单的因果关系。他们可吵了。