#AI推理

NVIDIA Rubin CPX:解耦推理革命與 GDDR7 重塑記憶體供應鏈 1. 核心理念:解耦推理(Disaggregated Inference) - 背景:AI 大模型推理分為兩個階段: 預輸入(Prefill/Context)階段:運算密集型(FLOPS 重),但記憶體頻寬利用率低(<10%)。傳統 GPU 使用昂貴 HBM 處理此階段,造成資源浪費。 生成(Decode/Generation)階段:記憶體頻寬密集型(>90% 利用率),適合 HBM。 - Rubin CPX 創新:專為預輸入階段設計,強調 FLOPS 計算(單晶片達 30 petaFLOPS NVFP4),而非高頻寬。單一單片晶片搭載 128GB GDDR7(頻寬約 2 TB/s),成本僅 HBM 的 1/2,製造成本估計為標準 Rubin R200 的 1/4。 - 效益:解耦後,預輸入成本降低,ROI 達 30~50 倍。整體系統效率提升 3~7.5 倍(如 Vera Rubin NVL144 CPX 機架達 8 exaFLOPS)。 - 補充:NVIDIA 官方表示,此設計支援長上下文(>1M tokens)工作負載,如影片生成與程式碼編寫,整合 NVENC/NVDEC 影片編解碼器。 2. 技術規格與設計靈活性 規格項目: Rubin CPX (預輸入專用) | 標準 Rubin R200 (通用) 計算性能: 30 petaFLOPS NVFP4 | 33.3 petaFLOPS NVFP4 記憶體類型: 128GB GDDR7 (2 TB/s) | 288GB HBM4 (20.5 TB/s) 封裝設計: 單片晶片 (Monolithic) | 雙晶片封裝 互聯: PCIe Gen 6 (無 NVLink) | NVLink 適用階段: Prefill (運算重) | Decode (頻寬重) 成本優勢: 每 GB 成本 < HBM/2 | 高端但通用 - 機架整合:Vera Rubin NVL144 CPX 機架混合 Rubin GPU 與 CPX,支援異質部署(e.g., 144 顆 GPU + 36 顆 Vera CPU)。雙機架方案允許獨立擴展,調整 Prefill/Decode 比例。 - 軟體支援:整合 NVIDIA Dynamo、TensorRT-LLM,提升吞吐量並降低延遲。 3. 對產業路線圖的重塑 - NVIDIA 優勢擴大:此為 GPU 發展「新方向」,拉大與競爭對手的機架級差距。AMD(MI400)及 ASIC 供應商(如 Google TPU、Meta MTIA)需重新投資預輸入專用晶片,否則 TCO(總擁有成本)更高。 - 競爭壓力:AMD 等先前追趕 NVIDIA 機架方案,現須加倍開發專用硬體。ASIC 雖高效,但缺乏靈活性(無法適應算法變化,如 Transformer 轉量子計算)。 - 市場影響:預輸入成本降,需求增(類似摩爾定律效應),整體推理市場擴大。NVIDIA 預估每 $1 億投資產生 $50 億 tokens 收入。 - 補充:有投資者視此為 NVIDIA 對 ASIC 威脅的「第三條路」(非純 GPU/ASIC),強化 disaggregated computing。 4. GDDR7 重塑記憶體供應鏈 - 需求激增:Rubin CPX 減少 HBM 依賴(系統成本中 HBM 佔比降),轉向 GDDR7。RTX Pro 6000 已下大規模訂單,CPX 將放大此趨勢。 - 受益者:三星電子(Samsung) 最大贏家,獨佔 NVIDIA 大批量 GDDR7 訂單(產能靈活)。SK Hynix 與 Micron 產能被 HBM 佔用,無法跟上(非技術問題)。 - 供應鏈變革: - GDDR7 利潤率低(技術門檻低、競爭激烈),但需求爆發將擴大市場規模(成本降 > 需求增)。 - HBM 需求不會崩盤(仍主導 Decode),但總市場轉向 GDDR7 平衡。SemiAnalysis 預測:整體記憶體市場成長,HBM 佔比降但絕對值升。 - 補充:Rubin CPX 上市(2026 年底)將重塑 AI 記憶體需求,GDDR7 訂單已翻倍。有人指出,三星 GDDR7 供應鏈將受益於 NVIDIA 的「突然湧現」訂單。 結語與展望 Rubin CPX 不僅解決推理效率瓶頸,更象徵 NVIDIA 從「通用 GPU」轉向「專用生態」策略,迫使產業跟進 disaggregated 設計。供應鏈方面,GDDR7 的崛起將緩解 HBM 短缺,但加劇三星 vs. SK Hynix/Micron 的競爭。預計 2026 年底上市後,將加速 AI 推理「經濟性」革命,ROI 潛力巨大。
英伟达发布Rubin CPX GPU,专为长上下文推理打造 昨天白天我们还在聊128GB GDDR7的5090,还在质疑是不是真的,晚上就来了真正128GB GDDR7的Rubin CPX。这也侧面呼应了前两天业内反馈三星收单收到手软,大幅度提升GDDR7产能的事实。 对,英伟达昨天深夜发布全新GPU:NVIDIA Rubin CPX,这是一款专门面向长上下文AI推理的新型处理器,旨在支持百万级Token的软件开发、生成式视频以及深度研究等复杂任务。 Rubin CPX将与NVIDIA Vera CPU及下一代Rubin GPU协同,组成全新的NVIDIA Vera Rubin NVL144 CPX集成平台。该平台在单机柜内可提供高达8 exaflops的AI算力,性能较现有GB300 NVL72系统提升7.5倍,并配备100TB高速内存与每秒1.7PB的内存带宽,为AI推理树立全新性能标准。 英伟达将AI推理划分为上下文阶段(Context Phase)与生成阶段(Generation Phase):前者计算密集,需要高吞吐率处理输入;后者则对内存带宽依赖更强,逐个生成token。为此,英伟达推出“分解式推理”架构,由不同硬件分别优化两大环节。 CEO 黄仁勋表示:“Vera Rubin平台标志着AI计算的又一次重大飞跃。正如RTX改变了图形与物理AI,Rubin CPX是首款专为海量上下文AI设计的CUDA GPU,使模型能够一次性推理数百万token的知识。” Rubin CPX性能亮点 Rubin CPX专为加速“上下文阶段”设计,采用单片式芯片架构,具备: 🔹 30 petaflops NVFP4精度算力 🔹 128GB GDDR7内存 🔹 注意力计算速度提升至GB300 NVL72的三倍 🔹 集成视频编解码器与长上下文推理功能 据称,这一设计大幅提升视频搜索与生成式视频的效率。 GB300 NVL72刷新MLPerf纪录 除了发布新架构,英伟达还公布了MLPerf Inference v5.1基准测试结果。基于Blackwell Ultra架构的GB300 NVL72系统,在Llama 3.1 405B,Whisper等任务中刷新纪录。在6710亿参数的DeepSeek-R1混合专家模型测试中,其单GPU性能较上一代Hopper提升约5倍。 这一进步得益于英伟达全栈优化,包括NVFP4低精度加速,TensorRT-LLM库的模型与KV缓存量化,以及针对复杂模型研发的新型并行技术。