2025-05-31 09:00:53
华为CloudMatrix 384:算力界的革命性“超级核弹” Part 4 of 4 先感谢各位小伙伴一路看了第 1、2、3 部分 —— 我知道我码了不少技术名词,估计大家读也花了不少时间,真的特别感谢! (第 1 部分戳这儿 👉 第 2 部分戳这儿 👉 第 3 部分戳这儿 👉 ) 今天咱们继续聊聊CloudMatrix 384的“现在”和“未来”,看看这颗算力界的“超级核弹”还能爆发出什么新火花。 第一、我们先聊聊:CloudMatrix和UB-Mesh,到底是什么关系? 坊间传闻两者是同一套东西,也有人说完全没关系。那么,它们之间到底啥关系? 先说笔者的结论 —— CloudMatrix和UB-Mesh更像是“同门师兄弟”关系,而不是完全一样。或者换句话说:CloudMatrix是UB1.0的实现,而UB-Mesh是UB2.0的实现。为什么这么说?咱们从几个细节上对比一下。 1,硬件分组:8×8NPU、64+1高可用 UB-Mesh论文明确提出,整个网络是以8×8全互联(Full Mesh)的NPU阵列为基本单元,还设计了64+1的冗余(高可用)结构,再加上CPU板和NPU板是彻底分离的。它那套架构图画得非常工整,我们之前也解释过。 但你看CloudMatrix 384(以下简称CM384)的真机或者华为披露的资料,基本没照着这个来。CM384的板卡设计和NPU单系统高度都跟论文里秀的大不一样,分组方式也是4x8,64+1冗余设计在CM384的公开信息里也没看到。 2,通信协议:UB统一通信协议 尽管硬件形态有差异,华为在CM384发布会上却说得非常清楚:CM384是基于“UB统一通信协议”搭的。也就是说,不管架构差异如何,底层怎么布线,使用什么板卡,其实大家用的都是同一套“语言”来沟通 —— 这一点跟 UB-Mesh 论文里强调的“统一编址、内存池化”一致。 所以可以这么理解:尽管CM384的网络架构,硬件形态不尽相同,但它实现了UB-Mesh的统一通信协议,所以才有了内存共享、编址一致的效果。 3,UB-IO:底层通道才是关键 还记得我们在Part 2里聊UB-Mesh硬件的时候,提到了UB-IO吗?它就是基于56G/112G SerDes的物理链路,上面跑的是UB统一通信协议,当然这协议也能兼容 TCP/IP;另外,按照UB-Mesh的论文,UB-IO应该还具备NPU间Full Mesh连接时点对点交换的能力,以支持全互联架构。 笔者的个人猜想,华为已经把UB-IO做成了“芯粒” —— 简单说,就是把那套SerDes高速收发,以及交换能力,直接集成到芯粒里。这样,NPU+UB-IO芯粒的组合封装起来就可以解决非常多的问题。 比如说,CM384里面的910C就是集成了UB-IO芯粒的版本。 这样,CM384虽然在网络架构上和UB-Mesh论文不一致,但沿用了UB统一通信协议以及继承了其显著的优点。 小结:硬件花样可以变,协议才是核心 🔹 硬件形态:CM384 ≠ 论文里的UB-Mesh硬件; 🔹 通信协议:CM384 = UB统一通信协议; 🔹 底层通道(UB-IO):华为很可能把它做成了标准“芯粒”,兼顾论文思路和工程落地。 所以,如我们刚才所说,CloudMatrix和UB-Mesh不完全是一回事,更像是UB1.0和UB2.0。当然,虽然CM384跟论文里提出的理想蓝图还有差距,但其整体进展确实让人挺激动的。 第二,CloudMatrix 384的“现在” 1,小结一句话 🔹 Ascend 910C就像在910B上“打包升级”,要想追上H100/H200除了堆算力,还得加上FP8和稀疏支持; 🔹 CM384超节点,运行DeepSeek R1的推理,保证单用户20TPS的条件下,单卡解码能冲到1920 tokens/s,基本跟H100持平; 🔹 MindSpore 2.6在软件层面全面拥抱DeepSeek-V3/R1 MoE架构,大幅提升预训练和推理吞吐,还集成了GRPO、DRO/PPO、vLLM等现代算法,开始形成软硬协同。; 🔹 出货方面,910C和CM384都蛮乐观,大客户测试稳步收尾,5,6月份就要大规模部署。 2,Ascend 910C:不是发明新轮子,是“拼组合拳” 🔹 910C本质上就是把两颗910B拼一起,没有搞什么全新架构,属于“堆叠式升级”。 🔹 想在国产芯片里撼动H100,单纯堆晶体管不够,还得靠FP8(让同样功耗下跑更多算力)+稀疏(省掉那些打酱油的计算)两大招。 🔹 所以业界都说,下一步910C需要对FP8来个原生支持,再上张量稀疏(Tensor Sparsity),让算力利用率再翻一番。 3,CM384 超节点:解码、带宽都瞄准 H100 🔹 根据“硅基流动”的分享,CM384在跑DeepSeek R1推理时,在保证单用户20TPS(Tokens per Second)前提下,单卡解码能冲1920 tokens/s,和H100站在一个水平线。 🔹 更牛的是,CM384采用了超高带宽互联,内部节点之间的通信延迟和带宽都迈上新台阶。直接给国产算力卡插上“训练”翅膀,不只是“只读推理”那么简单。 🔹 换句话说,华为在硬件互联和系统架构上的改进,正一点点攻克“大规模大模型部署”的网络瓶颈。 4,MindSpore 2.6:软件端的大集成 🔹 4月12日,昇思开发者大会上,MindSpore 2.6发布,直接对标DeepSeek V3/R1 MoE架构,预训练性能狂涨30%。 🔹 新增GRPO套件,能在千问、DeepSeek等模型上做GRPO训练,还能跑DRO/PPO强化学习,训推一体不用切来切去。 🔹 接入vLLM原生接口、DeepSeek V3/R1 Int8量化,添了10+推理融合大算子,系统吞吐2.8×飙升。 🔹 昇思还和北大、openEuler联手,把DeepSeek、MindSpore、openEuler、vLLM打包,搞成一套“大模型一体化部署”方案,行业用户可以拿来就能跑。 🔹 后面Mindspore 2.7将支持大EP并行能力,Day 0即可迁移多模态生成模型,配合CM384超节点,推理速度蹭蹭往上窜。 5,出货计划:铺得开,节奏稳 🔹 客户验证:国内几大运营商和几个大厂都测过了,反馈都不错,5月份前基本收官。预计5月份之后大规模出货。 🔹 主要客户:科大讯飞、蚂蚁金服、Sina Weibo、DeepSeek、奇瑞、中软国际、面壁智能、用友等等,名单还在往外加。 🔹 产品升级:据传910C最新流片的版本已经支持FP8,先开始配合科大讯飞、DeepSeek、华为云一起搞训练。 🔹 出货目标:锁定百万颗级别。CM384重点部署在芜湖、贵安、乌兰察布机房。 🔹 良率情况:当前良率可控,目标是在 2025 年底前持续往上提。 顺便多提一句,最近你要是留意行业信息,会发现除了地方政府,三大运营商也都在开国产算力大单:联通在上海周边,移动在长三角和东北,电信在西部,几乎都是几十亿起步。这些都是给谁? 第三,CloudMatrix 384的“未来” 1,Ascend 920:下一棒要更猛 🔹 性能飞跃+HBM3 加持 * 6nm+HBM3:华为准备让SMIC的6nm工艺为Ascend 920生产,再塞上第四代高带宽内存 HBM3。想象一下,单卡FP16的算力900TFLOPS,带宽到4 TB/s,连跑最烧脑的AI模型都像刷朋友圈那么快。 * 40%性能提升:官方给的数据是,920比上一代产品快40%以上。 * 训练更高效:在原来架构上再打磨,训练效率比910C提高30%–40%。简直就像健身教练给你加了间歇训练,效果更惊人。 🔹 挑战与机遇并存 * 制程良率压力:SMIC的6nm仍未完全成熟,良率有点捉急。受限于没拿到ASML的EUV光刻机,不得不用老款 DUV,结果一步能搞定的事儿要拆成三步,良率和成本都要“捉急”一下。 * HBM3供应扑朔:全球只有三星、海力士和美光能量产HBM3,中国几家还没大规模跑起来。华为得想方设法 —— 囤货、找“备用路线”、或者跟代工厂抢都在所难免。 * 破局希望:别忘了,这也是千载难逢的机会。Nvidia的H20在中方市场被按住了,920一旦量产到位,就能顶上去,把空出来的市场空间占住。 2,UB-Mesh+超级节点:打破天花板 🔹 UB-Mesh的真正落地 * “UB统一通信协议”:前面说过,CM384是UB1.0,920、未来的超节点也会沿用它 —— 想象一群人从小说同一种土话,换吃的、换衣服都能秒聊没障碍。 * 超大规模NPU阵列:坊间有戏称,明年要上8,000卡“Super Node”,这规模简直能把Nvidia当打的NVL288的小打小闹甩脑后。训练大模型的时候再也不卡脖子。 🔹 超节点:国产的长板 * 网络带宽+鲁棒性:回头看NVidia 2022年没搞定全光的“Ranger”,导致GB200用的是铜缆方案;但去年底今年初NVidia仍然“小翻车”,居然搞不定稳定量产。而华为却搞定了超复杂的光互连CM384。华为在网络互联know-how,事实上领先于NVidia。 * 运营商+地方政府扎堆入局:你要是留意招标,发现各地政府、三大运营商都在下大单 —— 上海周边、长三角、东北、西部…… 几百亿级别的单子,给超节点铺路。 * 未来想象:想象一下,某天有个8,000卡级别的超节点上线,跑起大模型来,比现在的集群更省心、更高效。期待国产算力卡第一次在训练比赛场打头阵。 3,最后一点彩蛋 🔹 “独立软硬件生态”:老黄最担心的就是美国管控越紧,中方越可能硬气起来,搞出自己一套AI软硬件生态,不再需要NVIDIA的芯片。比如华为,硬件有超大节点,软件有MindSpore、DeepSeek、vLLM那一套,一起打包成“拿来就跑”的大模型部署方案,科研所、云厂商、大学都能秒上手。 🔹 从“跟跑”变成“领跑”:从Ascend 920、CM384,到UB-Mesh、超节点,再到MindSpore 2.7…… 中方正一步步把国产AI从“跟跑”变成“领跑”。记得之前有人说过:千万别低估中方工程团队在“1→10”阶段的爆发力 —— 给这些“卷王”一点空间,就能把“跟跑”变成“并跑”并“领跑”。 这就是笔者眼中CM384的“将来”:硬件更猛、网络更宽、生态更全,国产 AI 的“核弹”威力,才刚刚开火。 说真的,笔者无比期待2026年的到来,期待今年910C的放量,期待920的到来,期待UB-Mesh架构的产品彻底落地。 写到这里,“这是一个最好的时代,也是一个最坏的时代”在笔者的眼里有了更多的含义, 🔹 “最坏”:技术封锁、关税壁垒把全球化的阳面撕开了缝,企业要在不确定的法规、供应链和资本环境中裸奔。 🔹 “最好”:正因为被逼到墙角,本土创新反而获得巨大激励 —— 从芯片设计、系统互连到整机架构,华为用“系统级工程”替代“单芯片竞速”,在算力和成本之间找到别样平衡。 狄更斯的话提醒我们:曲折并非终点,而是裂缝中透出的光。对中国的科技企业来说,壁垒既是束缚,也是倒逼自立的燃料;对全球产业而言,分化虽加剧,但多元技术路径也正在被重新发明。最好的时代与最坏的时代,其实只是同一张照片的正反面 —— 关键在于,站在画面里的我们如何选择姿势、创造光源。
2025-05-31 09:00:11
2025-05-30 08:49:11
2025-05-29 12:39:18
2025-05-29 10:58:39