#GPU

英伟达发布Rubin CPX GPU,专为长上下文推理打造 昨天白天我们还在聊128GB GDDR7的5090,还在质疑是不是真的,晚上就来了真正128GB GDDR7的Rubin CPX。这也侧面呼应了前两天业内反馈三星收单收到手软,大幅度提升GDDR7产能的事实。 对,英伟达昨天深夜发布全新GPU:NVIDIA Rubin CPX,这是一款专门面向长上下文AI推理的新型处理器,旨在支持百万级Token的软件开发、生成式视频以及深度研究等复杂任务。 Rubin CPX将与NVIDIA Vera CPU及下一代Rubin GPU协同,组成全新的NVIDIA Vera Rubin NVL144 CPX集成平台。该平台在单机柜内可提供高达8 exaflops的AI算力,性能较现有GB300 NVL72系统提升7.5倍,并配备100TB高速内存与每秒1.7PB的内存带宽,为AI推理树立全新性能标准。 英伟达将AI推理划分为上下文阶段(Context Phase)与生成阶段(Generation Phase):前者计算密集,需要高吞吐率处理输入;后者则对内存带宽依赖更强,逐个生成token。为此,英伟达推出“分解式推理”架构,由不同硬件分别优化两大环节。 CEO 黄仁勋表示:“Vera Rubin平台标志着AI计算的又一次重大飞跃。正如RTX改变了图形与物理AI,Rubin CPX是首款专为海量上下文AI设计的CUDA GPU,使模型能够一次性推理数百万token的知识。” Rubin CPX性能亮点 Rubin CPX专为加速“上下文阶段”设计,采用单片式芯片架构,具备: 🔹 30 petaflops NVFP4精度算力 🔹 128GB GDDR7内存 🔹 注意力计算速度提升至GB300 NVL72的三倍 🔹 集成视频编解码器与长上下文推理功能 据称,这一设计大幅提升视频搜索与生成式视频的效率。 GB300 NVL72刷新MLPerf纪录 除了发布新架构,英伟达还公布了MLPerf Inference v5.1基准测试结果。基于Blackwell Ultra架构的GB300 NVL72系统,在Llama 3.1 405B,Whisper等任务中刷新纪录。在6710亿参数的DeepSeek-R1混合专家模型测试中,其单GPU性能较上一代Hopper提升约5倍。 这一进步得益于英伟达全栈优化,包括NVFP4低精度加速,TensorRT-LLM库的模型与KV缓存量化,以及针对复杂模型研发的新型并行技术。
fin
2个月前
AI时代和互联网时代的运行逻辑和模式有什么不一样? 最近一直在思考这个问题,也在尝试从时间线拉长的角度去看一看 两年前的GTX大会,老黄po出来的这张图宣布了时代大幕的拉开,PC时代->互联网时代->AI时代,每一个时代前期的硬件大基建时代开始了,可能又是一次cisco时代涨潮退潮的故事重现 cisco时代基建一旦搭好,后续基建需求就减小太多了,相当于管道搭好了,互联网公司在管道上面搭各种各样的应用(即便是infra要扩容),大都是一次性的建设费用,之后的折旧周期也很长,cisco于是在短暂的互联网时代前期爆发之后迅速成了弃儿,如果2000年买入那么直到2021年才回本,大幅跑输SP500 移动互联网也是一样,手机SoC的基建一旦搭起来,每年能卖出去的手机量基本上是固定的,所以高通成了过去十多年来半导体领域最具有illusion的差劲投资,移动互联网经济的繁荣没有给高通带来多少增量,底层基建只有基本的手机例行换代升级更新 但两年后现在回过头来看,AI时代也许无法直接套用之前的经验。逻辑是不一样的,training训练基建并不是一次性的,日常使用的费用远远超过互联网时代,GPU的超负荷使用导致其寿命两三年就要换新,而且价格及其昂贵。 为什么Meta用人均上亿美元签字费的代价挖来那么多顶尖AI人才来做基础模型?是不是冤大头? 从Meta的infra高成本来看是有道理的,因为Meta在GPU基建上的投入一年70B而且还一直在增长,甚至要亲自下场去做GW级别的数据中心,那么投入3~5B去招募一群世界上最懂的人去用好一年70B的顶级奢侈品GPU data center,就显得是非常必要的了,三五十亿美元招募费相比而言甚至是非常划算的事情 在Google/OpenAI,Compute-per-Researcher已经是重要管理KPI,Meta花了几亿买人,说对应的算力必须要匹配齐全,这个说法反过来就能理解Meta高价挖人的初衷:每年花近千亿买GPU,对应的技术人才必须要匹配到位 在大厂做fundation Model training的这部分人(特别是pretraining)和SDE不一样,甚至和十年前才产生的新工种MLE也不一样,已经是一个完完全全由这个时代产生的新工种了:算力花销收益率管理人,没有千卡集群的训练经验,都达不到能进行业的门槛 人类历史上第一次产生了一种,由少数几十上百个人去操作每年花销相当于一个国家GDP(100B级别=克罗地亚/哥斯达黎加)的机器大军的新工种 在互联网时代,Google,Amazon,Facebook都是不需要在基建上承担太多压力的,只需要等互联网基建慢慢成熟,他们就能借助这个网络建立一个信息流通的商业模式,每次请求的网络和算力成本,也是边际成本极低,造成了scaling的效果极好,分发边际成本几乎为零,快速扩张的收益惊人,扩张越快收益平方上升 ------ 这个特质也造成了一个现象:互联网企业的最大OPEX成本都是SDE人工成本,这就是典型的第三产业服务产业的特征,这也是SDE过去十五年黄金时代可以随着业务不停扩张而薪资水涨船高的重要原因 互联网时代的稀缺资源是软件工程师的工作时间,财报的重头是OPEX工资,护城河是网络规模效应和无限复制接近零的分发成本,Google/FB也自建数据中心,但CAPEX在10%左右 而LLM时代,起码是这几年,互联网公司主导稀缺资源已经是GPU+供电容量(GW级别),财报的重头是CAPEX(MSFT CAPEX 比例33%,Meta 甚至已经快到40%了),GPU已经毫无疑问是重资产,重消耗 互联网公司历史上第一次像半导体厂foundry那样背上高折旧成本的资产负债表,商业模型恨不得要慢慢从“流量 × 转化率”部分转向“每 token 毛利”了 第三产业和第二产业的重要差别就在于需要管理重资产和持续的运营成本,互联网厂商性质会从第三产业变成“第二产业化”,打工人作为asset的价值就不会那么的宝贵,SDE溢价无上限的黄金年代可能在AI时代可能很难持续了,要尝一尝半导体行业打工人的常规待遇,比如谈薪资要的太高直接把offer谈没了 互联网公司持续把资源从人工转到GPU购买上,挤压人员的成本,削减福利+不停裁员换血,我觉得每一个互联网公司的SDE打工人,都应该买入Nvidia作为风险对冲(弥补自己被GPU挤出价值链的风险) -------------- 在AI时代,这个互联网时代边际成本几乎为零利于scalable的特性遭遇了根本性的重大挑战:且不说训练成本从此不是一次性开销而是年年增长,就客户的AI推理请求而言,由于inference scaling成为共识,加上模型本身需要更大规模来达到更好效果,推理的成本可能不会随着硬件算力价格的通缩而降低 就像当年的手机行业芯片每年的算力都在提升,照理来说续航每年都能增长一大截,但是最佳商业逻辑是在功耗满足人们能忍受的限度内(电池能用一天),尽可能提升体验,而不是维持体验不变降低功耗。不然的话,手机早就能达到待机几个月的水平了 AI时代的推理也是一样,o1的成本降低了,大家就会用体验更好的o3,gpt4o的成本两年降低了一百倍,大家就会去用gpt4.5,成本比两年前的GPT4还要高,gpt4.5一天限额只有几条。agent半年时间跑相同任务便宜了十倍,但一个新的效果更好的agent又把价格拉了回去 这个AI推理成本可能就和当年的手机芯片功耗一样,在人们能忍受的成本限度内,尽可能的提升体验。所以AI推理成本不会降低,也就是互联网时代讲究的分发边际成本会变高很多 更不说因为AI使用量的提高带来的token消耗量的巨额增长。 这也导致互联网公司在这一块的投入,也是在财报能忍受的限度内,尽可能的提高自己的算力,这可能也是为什么Google最近又提高了AI的capex到85B,其他几个互联网巨头提高capex也是理所当然可以预见的事情。这也许会带来一个前所未有的现象:在scaling law失效之前,算力开销成本增长不会低于互联网业绩增长 ------- 从这个宏观背景的变化出发,也就是AI和互联网在底层算力特性上的不同出发,那么也许可以尝试推演一下,这会带来什么策略上和商业模式上的变化 (待续)