#AI推理

1个月前

很多大佬都想了解一下算力舱和家庭电脑英伟达独显做对比，看看哪个的AI推理更强？我拿了 ThinkBook 16P 的笔记本，配置是 CPU 14 代 i9 14900HK顶配处理器，96GB内存 + 英伟达 4060 独立显卡，显存是流行的8GB 算力舱跑 Qwen 30b a3b 的速度是 35.9 Tokens/s i9台式机跑 Qwen 30b a3b 的速度是 13.93 Tokens/s ThinkBook 13000, 算力舱 16599, 差不多的价格，性能差距2.6倍，关键是 ThinkBook 只能自己用，结合微服的内网穿透能力，算力舱的AI性能可以给所有笔记本、平板和手机公用

懒猫家族新成员亮相，AI算力舱引发热议！· 143 条信息

#算力舱 #英伟达4060 #AI推理 #Qwen 30b #性能差距

1个月前

马斯克：手机操作系统和一切应用软件都将会消失手机将不再只是通信或娱乐工具，而是 AI推理的边缘节点负责本地AI推理和与服务器端AI实时通信手机将变为一个极简设备： -仅包含显示屏、音频输出 -尽可能多地在本地运行AI模型 -以此减少与云端的带宽消耗未来可能不会再有操作系统或传统App... 一切交互将由AI直接完成——用户只需表达需求，AI自动生成结果。这种由AI主导的生态将在5–6年内实现...

#马斯克 #AI #手机操作系统消失 #AI推理 #极简设备

2个月前

Meta最新的研究论文不错：旨在更深度的解释AI的推理过程，更好的验证推理过程正确与否。往大了说可以进一步增强AI的可解释性，实用意义是监测推理

谷歌Deep Research：AI操作系统雏形？· 145 条信息

#Meta #AI推理 #可解释性 #研究论文 #积极

3个月前

NVIDIA Rubin CPX：解耦推理革命與 GDDR7 重塑記憶體供應鏈 1. 核心理念：解耦推理（Disaggregated Inference） - 背景：AI 大模型推理分為兩個階段：預輸入（Prefill/Context）階段：運算密集型（FLOPS 重），但記憶體頻寬利用率低（<10%）。傳統 GPU 使用昂貴 HBM 處理此階段，造成資源浪費。生成（Decode/Generation）階段：記憶體頻寬密集型（>90% 利用率），適合 HBM。 - Rubin CPX 創新：專為預輸入階段設計，強調 FLOPS 計算（單晶片達 30 petaFLOPS NVFP4），而非高頻寬。單一單片晶片搭載 128GB GDDR7（頻寬約 2 TB/s），成本僅 HBM 的 1/2，製造成本估計為標準 Rubin R200 的 1/4。 - 效益：解耦後，預輸入成本降低，ROI 達 30~50 倍。整體系統效率提升 3~7.5 倍（如 Vera Rubin NVL144 CPX 機架達 8 exaFLOPS）。 - 補充：NVIDIA 官方表示，此設計支援長上下文（>1M tokens）工作負載，如影片生成與程式碼編寫，整合 NVENC/NVDEC 影片編解碼器。 2. 技術規格與設計靈活性規格項目: Rubin CPX (預輸入專用) | 標準 Rubin R200 (通用) 計算性能: 30 petaFLOPS NVFP4 | 33.3 petaFLOPS NVFP4 記憶體類型: 128GB GDDR7 (2 TB/s) | 288GB HBM4 (20.5 TB/s) 封裝設計: 單片晶片 (Monolithic) | 雙晶片封裝互聯: PCIe Gen 6 (無 NVLink) | NVLink 適用階段: Prefill (運算重) | Decode (頻寬重) 成本優勢: 每 GB 成本 < HBM/2 | 高端但通用 - 機架整合：Vera Rubin NVL144 CPX 機架混合 Rubin GPU 與 CPX，支援異質部署（e.g., 144 顆 GPU + 36 顆 Vera CPU）。雙機架方案允許獨立擴展，調整 Prefill/Decode 比例。 - 軟體支援：整合 NVIDIA Dynamo、TensorRT-LLM，提升吞吐量並降低延遲。 3. 對產業路線圖的重塑 - NVIDIA 優勢擴大：此為 GPU 發展「新方向」，拉大與競爭對手的機架級差距。AMD（MI400）及 ASIC 供應商（如 Google TPU、Meta MTIA）需重新投資預輸入專用晶片，否則 TCO（總擁有成本）更高。 - 競爭壓力：AMD 等先前追趕 NVIDIA 機架方案，現須加倍開發專用硬體。ASIC 雖高效，但缺乏靈活性（無法適應算法變化，如 Transformer 轉量子計算）。 - 市場影響：預輸入成本降，需求增（類似摩爾定律效應），整體推理市場擴大。NVIDIA 預估每 $1 億投資產生 $50 億 tokens 收入。 - 補充：有投資者視此為 NVIDIA 對 ASIC 威脅的「第三條路」（非純 GPU/ASIC），強化 disaggregated computing。 4. GDDR7 重塑記憶體供應鏈 - 需求激增：Rubin CPX 減少 HBM 依賴（系統成本中 HBM 佔比降），轉向 GDDR7。RTX Pro 6000 已下大規模訂單，CPX 將放大此趨勢。 - 受益者：三星電子（Samsung）最大贏家，獨佔 NVIDIA 大批量 GDDR7 訂單（產能靈活）。SK Hynix 與 Micron 產能被 HBM 佔用，無法跟上（非技術問題）。 - 供應鏈變革： - GDDR7 利潤率低（技術門檻低、競爭激烈），但需求爆發將擴大市場規模（成本降 > 需求增）。 - HBM 需求不會崩盤（仍主導 Decode），但總市場轉向 GDDR7 平衡。SemiAnalysis 預測：整體記憶體市場成長，HBM 佔比降但絕對值升。 - 補充：Rubin CPX 上市（2026 年底）將重塑 AI 記憶體需求，GDDR7 訂單已翻倍。有人指出，三星 GDDR7 供應鏈將受益於 NVIDIA 的「突然湧現」訂單。結語與展望 Rubin CPX 不僅解決推理效率瓶頸，更象徵 NVIDIA 從「通用 GPU」轉向「專用生態」策略，迫使產業跟進 disaggregated 設計。供應鏈方面，GDDR7 的崛起將緩解 HBM 短缺，但加劇三星 vs. SK Hynix/Micron 的競爭。預計 2026 年底上市後，將加速 AI 推理「經濟性」革命，ROI 潛力巨大。

#NVIDIA Rubin CPX #解耦推理 #GDDR7 #三星 #AI推理

3个月前

英伟达发布Rubin CPX GPU，专为长上下文推理打造昨天白天我们还在聊128GB GDDR7的5090，还在质疑是不是真的，晚上就来了真正128GB GDDR7的Rubin CPX。这也侧面呼应了前两天业内反馈三星收单收到手软，大幅度提升GDDR7产能的事实。对，英伟达昨天深夜发布全新GPU：NVIDIA Rubin CPX，这是一款专门面向长上下文AI推理的新型处理器，旨在支持百万级Token的软件开发、生成式视频以及深度研究等复杂任务。 Rubin CPX将与NVIDIA Vera CPU及下一代Rubin GPU协同，组成全新的NVIDIA Vera Rubin NVL144 CPX集成平台。该平台在单机柜内可提供高达8 exaflops的AI算力，性能较现有GB300 NVL72系统提升7.5倍，并配备100TB高速内存与每秒1.7PB的内存带宽，为AI推理树立全新性能标准。英伟达将AI推理划分为上下文阶段（Context Phase）与生成阶段（Generation Phase）：前者计算密集，需要高吞吐率处理输入；后者则对内存带宽依赖更强，逐个生成token。为此，英伟达推出“分解式推理”架构，由不同硬件分别优化两大环节。 CEO 黄仁勋表示：“Vera Rubin平台标志着AI计算的又一次重大飞跃。正如RTX改变了图形与物理AI，Rubin CPX是首款专为海量上下文AI设计的CUDA GPU，使模型能够一次性推理数百万token的知识。” Rubin CPX性能亮点 Rubin CPX专为加速“上下文阶段”设计，采用单片式芯片架构，具备： 🔹 30 petaflops NVFP4精度算力 🔹 128GB GDDR7内存 🔹 注意力计算速度提升至GB300 NVL72的三倍 🔹 集成视频编解码器与长上下文推理功能据称，这一设计大幅提升视频搜索与生成式视频的效率。 GB300 NVL72刷新MLPerf纪录除了发布新架构，英伟达还公布了MLPerf Inference v5.1基准测试结果。基于Blackwell Ultra架构的GB300 NVL72系统，在Llama 3.1 405B，Whisper等任务中刷新纪录。在6710亿参数的DeepSeek-R1混合专家模型测试中，其单GPU性能较上一代Hopper提升约5倍。这一进步得益于英伟达全栈优化，包括NVFP4低精度加速，TensorRT-LLM库的模型与KV缓存量化，以及针对复杂模型研发的新型并行技术。

英伟达市值破四万亿，AI芯片霸主地位稳固？· 216 条信息

#英伟达 #Rubin CPX #AI推理 #GPU #128GB GDDR7

3个月前

当我们需要训练大模型或优化 AI 推理性能，可能会遇到 GPU 利用率低、内存瓶颈等性能问题。在 GitHub 上看到一份专为机器学习工程师准备的性能优化指南：GPU Glossary。表面看只是普通的 GPU 术语词典，实际上它连接了 ML 性能优化与底层 GPU 架构的指南，帮我们理解从 Tensor Core 到 CUDA 编程的完整技术栈。 GitHub：主要内容： - GPU 硬件架构详解：深入了解影响 ML 性能的核心组件和瓶颈 - CUDA 编程优化：掌握提升模型训练和推理效率的关键技术 - 性能分析方法：学会识别和解决 GPU 利用率、内存带宽等问题 - 超链接知识图谱：所有概念互相关联，快速理解性能优化原理 - 实战导向设计：基于 Modal 平台大规模 GPU 集群的实践经验 - 机器学习场景：专注解决 LLM 训练、推理加速等实际问题该指南提供了在线网站阅读，界面设计颇具极客风格，可切换多种主题，也可以快速搜索查找相关内容。

#GPU优化 #机器学习性能 #CUDA编程 #AI推理 #性能瓶颈

川沐｜Trumoo🐮

4个月前

$MU 美光极其被低估，ai的推理需求暴涨，美光的存储需求会不断暴增，现在市盈率已经降到20了. 这是最后一段时间能买到150以下的美光的机会了.

#美光 #AI推理 #存储需求 #低估 #150以下

karminski-牙医

10个月前

深度分析下 DeepSeek-R1 用华为昇腾，推理集群大概多大？重磅消息，昨天的新闻，DeepSeek-R1 真的能在华为的昇腾AI加速卡上跑了。根据华为官方，Atlas（昇腾） 300I Pro 推理卡单卡拥有 140 TOPS INT8 和 70 TFLOPS FP16这个性能足够推理用，但关键的内存则使用了LPDDR4X 24 GB，总带宽204.8 GB/s

#DeepSeek-R1 #华为昇腾 #AI加速卡 #Atlas 300I Pro #AI推理 #深度学习 #科技新闻