时政
财经
科技
虚拟货币
其他
登录
駿HaYaO
关注
统计数据
2
文章
0
粉丝
0
获赞
0
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
駿HaYaO
6天前
NVIDIA Rubin CPX:解耦推理革命與 GDDR7 重塑記憶體供應鏈 1. 核心理念:解耦推理(Disaggregated Inference) - 背景:AI 大模型推理分為兩個階段: 預輸入(Prefill/Context)階段:運算密集型(FLOPS 重),但記憶體頻寬利用率低(<10%)。傳統 GPU 使用昂貴 HBM 處理此階段,造成資源浪費。 生成(Decode/Generation)階段:記憶體頻寬密集型(>90% 利用率),適合 HBM。 - Rubin CPX 創新:專為預輸入階段設計,強調 FLOPS 計算(單晶片達 30 petaFLOPS NVFP4),而非高頻寬。單一單片晶片搭載 128GB GDDR7(頻寬約 2 TB/s),成本僅 HBM 的 1/2,製造成本估計為標準 Rubin R200 的 1/4。 - 效益:解耦後,預輸入成本降低,ROI 達 30~50 倍。整體系統效率提升 3~7.5 倍(如 Vera Rubin NVL144 CPX 機架達 8 exaFLOPS)。 - 補充:NVIDIA 官方表示,此設計支援長上下文(>1M tokens)工作負載,如影片生成與程式碼編寫,整合 NVENC/NVDEC 影片編解碼器。 2. 技術規格與設計靈活性 規格項目: Rubin CPX (預輸入專用) | 標準 Rubin R200 (通用) 計算性能: 30 petaFLOPS NVFP4 | 33.3 petaFLOPS NVFP4 記憶體類型: 128GB GDDR7 (2 TB/s) | 288GB HBM4 (20.5 TB/s) 封裝設計: 單片晶片 (Monolithic) | 雙晶片封裝 互聯: PCIe Gen 6 (無 NVLink) | NVLink 適用階段: Prefill (運算重) | Decode (頻寬重) 成本優勢: 每 GB 成本 < HBM/2 | 高端但通用 - 機架整合:Vera Rubin NVL144 CPX 機架混合 Rubin GPU 與 CPX,支援異質部署(e.g., 144 顆 GPU + 36 顆 Vera CPU)。雙機架方案允許獨立擴展,調整 Prefill/Decode 比例。 - 軟體支援:整合 NVIDIA Dynamo、TensorRT-LLM,提升吞吐量並降低延遲。 3. 對產業路線圖的重塑 - NVIDIA 優勢擴大:此為 GPU 發展「新方向」,拉大與競爭對手的機架級差距。AMD(MI400)及 ASIC 供應商(如 Google TPU、Meta MTIA)需重新投資預輸入專用晶片,否則 TCO(總擁有成本)更高。 - 競爭壓力:AMD 等先前追趕 NVIDIA 機架方案,現須加倍開發專用硬體。ASIC 雖高效,但缺乏靈活性(無法適應算法變化,如 Transformer 轉量子計算)。 - 市場影響:預輸入成本降,需求增(類似摩爾定律效應),整體推理市場擴大。NVIDIA 預估每 $1 億投資產生 $50 億 tokens 收入。 - 補充:有投資者視此為 NVIDIA 對 ASIC 威脅的「第三條路」(非純 GPU/ASIC),強化 disaggregated computing。 4. GDDR7 重塑記憶體供應鏈 - 需求激增:Rubin CPX 減少 HBM 依賴(系統成本中 HBM 佔比降),轉向 GDDR7。RTX Pro 6000 已下大規模訂單,CPX 將放大此趨勢。 - 受益者:三星電子(Samsung) 最大贏家,獨佔 NVIDIA 大批量 GDDR7 訂單(產能靈活)。SK Hynix 與 Micron 產能被 HBM 佔用,無法跟上(非技術問題)。 - 供應鏈變革: - GDDR7 利潤率低(技術門檻低、競爭激烈),但需求爆發將擴大市場規模(成本降 > 需求增)。 - HBM 需求不會崩盤(仍主導 Decode),但總市場轉向 GDDR7 平衡。SemiAnalysis 預測:整體記憶體市場成長,HBM 佔比降但絕對值升。 - 補充:Rubin CPX 上市(2026 年底)將重塑 AI 記憶體需求,GDDR7 訂單已翻倍。有人指出,三星 GDDR7 供應鏈將受益於 NVIDIA 的「突然湧現」訂單。 結語與展望 Rubin CPX 不僅解決推理效率瓶頸,更象徵 NVIDIA 從「通用 GPU」轉向「專用生態」策略,迫使產業跟進 disaggregated 設計。供應鏈方面,GDDR7 的崛起將緩解 HBM 短缺,但加劇三星 vs. SK Hynix/Micron 的競爭。預計 2026 年底上市後,將加速 AI 推理「經濟性」革命,ROI 潛力巨大。
#NVIDIA Rubin CPX
#解耦推理
#GDDR7
#三星
#AI推理
分享
评论 0
0
駿HaYaO
6个月前
Morgan Stanley的NVIDIA GTC預覽: NVIDIA將於下週舉行其年度GTC大會,首席執行官黃仁勳將於3月18日發表主題演講。本報告總結了對亞洲科技供應鏈的預期和影響。 Blackwell Ultra預計於2025年第二季度推出 Blackwell Ultra很可能是NVIDIA在2025年GTC上推出的關鍵產品,作為Blackwell(B200)的後繼者。 我們的研究顯示,Blackwell Ultra(基於台積電N4P製程的B300晶片)包括與B200晶片相似的邏輯晶片,具有以下特點: - 更高的HBM(高頻寬記憶體)容量(288GB,採用4x/8x HBM3e 12hi) - 更高的功耗(TDP:1.4kW) 我們估計Blackwell Ultra的FP4性能將比B200高出50%,首批出貨將於2025年第三季度開始。 Blackwell Ultra潛在的關鍵規格變化 1. 採用GPU插座架構 2. 回歸OAM+UBB計算板:單板搭載四個GPU模組和兩個Grace CPU(代號:Cordelia) 3. 功耗增加 4. 可能採用BBU(電池備援單元)和超級電容器 5. 液冷設計的變化,特別是UQD和冷板 6. 採用ConnectX 8800G網絡卡 7. 可選整合HMC和DC-SCM 這些規格變化的主要受益者 - 電源與BBU/超級電容器系統:台達電子(Delta Electronics) - 電池組供應商:AES - 液冷與冷板供應商: AVC、Auras - UQD供應商:Fositek - OAM/UBB伺服器供應商:緯創(Wistron) - HBM(高頻寬記憶體)供應商:SK海力士(HBM容量增加50%) - 網絡與插座供應商:FIT、Lotes Vera Rubin平台預覽:Rubin Ultra的暗示? 雖然Rubin GPU(基於台積電N3P製程)預計要到2026年才會推出,但根據去年GTC的採用速度,NVIDIA可能會透露一些關於Rubin平台的細節。 根據我們的研究,Rubin GPU可能採用雙邏輯晶片設計(類似Blackwell),包括: - 兩個台積電N3晶片 - 八個HBM4立方體,總HBM容量為384GB(比Blackwell Ultra增加33%) 我們預計功耗將進一步增加至約1.8kW TDP,Vera ARM CPU將遷移至台積電N3製程,可能採用2.5D封裝結構。 供應鏈分析表明,Rubin的時間表可能會加速,大規模生產可能在2025年底或2026年初開始,但有意義的出貨最早要到2026年第二季度才會開始。 Rubin平台預計將配備1.6T網絡,並採用雙ConnectX9網絡卡。 雖然系統設計細節尚不清楚,但我們認為NVL144和可能的NVL288機架結構可能會被考慮用於Rubin平台。 機架GPU密度增加和功耗上升趨勢對電源和冷卻解決方案供應商有利。 此外,系統設計複雜性的增加對ODM供應商有利。 然而,我們預計2025年GTC不會透露太多關於Rubin Ultra的細節——我們的初步研究表明,其矽片將更加複雜。 機架GPU密度增加的影響:NVL144與NVL288 我們的研究表明,NVIDIA可能會增加每個機架的GPU密度,從目前的NVL36/72提升至NVL144/288,以提高成本效率。 這一變化可能需要部署獨立的電源機架(而不是NVL72機架內整合的電源)。 每個機架可能支援300,000W至700,000W的功率,伺服器機架需要更高的電壓(400V+)以減少功率損耗。 潛在的關鍵受益者 - BBU/超級電容器與電壓調節模組供應商:台達電子 - 電池組供應商:AES NVIDIA的CPO(共封裝光學)路線圖與受益者 供應鏈研究表明,NVIDIA可能會在GTC上概述其CPO(共封裝光學)路線圖。 CPO採用預計將從交換機開始,作為Blackwell Ultra平台中Infiniband(Quantum)和乙太網(Spectrum)的頂級機架數據中心交換機解決方案的可選方案。 CPO對於提高頻寬和降低延遲同時減少功耗至關重要。 然而,CPO交換機的立即採用率仍然相對較低。 CPO採用的關鍵轉折點將取決於其在GPU中的整合,這可能要到2027年的Rubin Ultra才會發生。 CPO在AI GPU中採用的關鍵技術挑戰 - 熱管理:光學引擎產生大量熱量 - 可靠性問題 - IC基板翹曲:由於所需更大尺寸 隨著CPO交換機基板尺寸增加20-30%,這為基板供應商提供了關鍵機會。 對於CPO-on-Interposer GPU,基板設計可能比當前GPU大2-3倍,推動對玻璃核心基板的需求,並惠及UMC等供應商。 GB300液冷採用可能增加 我們估計,GB300計算托盤的冷板模組成本將比GB200高出至少10%,原因是快速斷開(QD)連接器和內部管道的增加。 雖然Vera Rubin平台的細節尚不清楚,但我們推測更高的TDP將繼續推動液冷需求。 關鍵受益者 - 冷板供應商:AVC - UQD供應商:Fositek(GB300相較GB200的QD出貨量增加) Blackwell Ultra與Rubin中伺服器ODM的價值提升 隨著伺服器設計更複雜且內部組件比例更高(例如液冷組件),伺服器ODM可能在Blackwell Ultra和Rubin GPU世代中創造更大價值。 在組件層面,緯創在GB300 OAM/UBB中獲得了更多份額,但競爭和PCB相對於GPU的較慢增長仍令人擔憂。 在系統層面,我們認為廣達(Quanta)和鴻海(Foxconn)將繼續是關鍵參與者,因為它們擁有強大的資本地位和美國製造基礎。 如果GB300出貨量達到一定規模,客戶可能會引入第二個ODM來源。
#NVIDIA
#GTC会议
#黄仁勋
#亚洲科技供应链
#Blackwell Ultra
分享
评论 0
0
1
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞