#未来发展

2个月前
华为CloudMatrix 384:算力界的革命性“超级核弹” Part 4 of 4 先感谢各位小伙伴一路看了第 1、2、3 部分 —— 我知道我码了不少技术名词,估计大家读也花了不少时间,真的特别感谢! (第 1 部分戳这儿 👉 第 2 部分戳这儿 👉 第 3 部分戳这儿 👉 ) 今天咱们继续聊聊CloudMatrix 384的“现在”和“未来”,看看这颗算力界的“超级核弹”还能爆发出什么新火花。 第一、我们先聊聊:CloudMatrix和UB-Mesh,到底是什么关系? 坊间传闻两者是同一套东西,也有人说完全没关系。那么,它们之间到底啥关系? 先说笔者的结论 —— CloudMatrix和UB-Mesh更像是“同门师兄弟”关系,而不是完全一样。或者换句话说:CloudMatrix是UB1.0的实现,而UB-Mesh是UB2.0的实现。为什么这么说?咱们从几个细节上对比一下。 1,硬件分组:8×8NPU、64+1高可用 UB-Mesh论文明确提出,整个网络是以8×8全互联(Full Mesh)的NPU阵列为基本单元,还设计了64+1的冗余(高可用)结构,再加上CPU板和NPU板是彻底分离的。它那套架构图画得非常工整,我们之前也解释过。 但你看CloudMatrix 384(以下简称CM384)的真机或者华为披露的资料,基本没照着这个来。CM384的板卡设计和NPU单系统高度都跟论文里秀的大不一样,分组方式也是4x8,64+1冗余设计在CM384的公开信息里也没看到。 2,通信协议:UB统一通信协议 尽管硬件形态有差异,华为在CM384发布会上却说得非常清楚:CM384是基于“UB统一通信协议”搭的。也就是说,不管架构差异如何,底层怎么布线,使用什么板卡,其实大家用的都是同一套“语言”来沟通 —— 这一点跟 UB-Mesh 论文里强调的“统一编址、内存池化”一致。 所以可以这么理解:尽管CM384的网络架构,硬件形态不尽相同,但它实现了UB-Mesh的统一通信协议,所以才有了内存共享、编址一致的效果。 3,UB-IO:底层通道才是关键 还记得我们在Part 2里聊UB-Mesh硬件的时候,提到了UB-IO吗?它就是基于56G/112G SerDes的物理链路,上面跑的是UB统一通信协议,当然这协议也能兼容 TCP/IP;另外,按照UB-Mesh的论文,UB-IO应该还具备NPU间Full Mesh连接时点对点交换的能力,以支持全互联架构。 笔者的个人猜想,华为已经把UB-IO做成了“芯粒” —— 简单说,就是把那套SerDes高速收发,以及交换能力,直接集成到芯粒里。这样,NPU+UB-IO芯粒的组合封装起来就可以解决非常多的问题。 比如说,CM384里面的910C就是集成了UB-IO芯粒的版本。 这样,CM384虽然在网络架构上和UB-Mesh论文不一致,但沿用了UB统一通信协议以及继承了其显著的优点。 小结:硬件花样可以变,协议才是核心 🔹 硬件形态:CM384 ≠ 论文里的UB-Mesh硬件; 🔹 通信协议:CM384 = UB统一通信协议; 🔹 底层通道(UB-IO):华为很可能把它做成了标准“芯粒”,兼顾论文思路和工程落地。 所以,如我们刚才所说,CloudMatrix和UB-Mesh不完全是一回事,更像是UB1.0和UB2.0。当然,虽然CM384跟论文里提出的理想蓝图还有差距,但其整体进展确实让人挺激动的。 第二,CloudMatrix 384的“现在” 1,小结一句话 🔹 Ascend 910C就像在910B上“打包升级”,要想追上H100/H200除了堆算力,还得加上FP8和稀疏支持; 🔹 CM384超节点,运行DeepSeek R1的推理,保证单用户20TPS的条件下,单卡解码能冲到1920 tokens/s,基本跟H100持平; 🔹 MindSpore 2.6在软件层面全面拥抱DeepSeek-V3/R1 MoE架构,大幅提升预训练和推理吞吐,还集成了GRPO、DRO/PPO、vLLM等现代算法,开始形成软硬协同。; 🔹 出货方面,910C和CM384都蛮乐观,大客户测试稳步收尾,5,6月份就要大规模部署。 2,Ascend 910C:不是发明新轮子,是“拼组合拳” 🔹 910C本质上就是把两颗910B拼一起,没有搞什么全新架构,属于“堆叠式升级”。 🔹 想在国产芯片里撼动H100,单纯堆晶体管不够,还得靠FP8(让同样功耗下跑更多算力)+稀疏(省掉那些打酱油的计算)两大招。 🔹 所以业界都说,下一步910C需要对FP8来个原生支持,再上张量稀疏(Tensor Sparsity),让算力利用率再翻一番。 3,CM384 超节点:解码、带宽都瞄准 H100 🔹 根据“硅基流动”的分享,CM384在跑DeepSeek R1推理时,在保证单用户20TPS(Tokens per Second)前提下,单卡解码能冲1920 tokens/s,和H100站在一个水平线。 🔹 更牛的是,CM384采用了超高带宽互联,内部节点之间的通信延迟和带宽都迈上新台阶。直接给国产算力卡插上“训练”翅膀,不只是“只读推理”那么简单。 🔹 换句话说,华为在硬件互联和系统架构上的改进,正一点点攻克“大规模大模型部署”的网络瓶颈。 4,MindSpore 2.6:软件端的大集成 🔹 4月12日,昇思开发者大会上,MindSpore 2.6发布,直接对标DeepSeek V3/R1 MoE架构,预训练性能狂涨30%。 🔹 新增GRPO套件,能在千问、DeepSeek等模型上做GRPO训练,还能跑DRO/PPO强化学习,训推一体不用切来切去。 🔹 接入vLLM原生接口、DeepSeek V3/R1 Int8量化,添了10+推理融合大算子,系统吞吐2.8×飙升。 🔹 昇思还和北大、openEuler联手,把DeepSeek、MindSpore、openEuler、vLLM打包,搞成一套“大模型一体化部署”方案,行业用户可以拿来就能跑。 🔹 后面Mindspore 2.7将支持大EP并行能力,Day 0即可迁移多模态生成模型,配合CM384超节点,推理速度蹭蹭往上窜。 5,出货计划:铺得开,节奏稳 🔹 客户验证:国内几大运营商和几个大厂都测过了,反馈都不错,5月份前基本收官。预计5月份之后大规模出货。 🔹 主要客户:科大讯飞、蚂蚁金服、Sina Weibo、DeepSeek、奇瑞、中软国际、面壁智能、用友等等,名单还在往外加。 🔹 产品升级:据传910C最新流片的版本已经支持FP8,先开始配合科大讯飞、DeepSeek、华为云一起搞训练。 🔹 出货目标:锁定百万颗级别。CM384重点部署在芜湖、贵安、乌兰察布机房。 🔹 良率情况:当前良率可控,目标是在 2025 年底前持续往上提。 顺便多提一句,最近你要是留意行业信息,会发现除了地方政府,三大运营商也都在开国产算力大单:联通在上海周边,移动在长三角和东北,电信在西部,几乎都是几十亿起步。这些都是给谁? 第三,CloudMatrix 384的“未来” 1,Ascend 920:下一棒要更猛 🔹 性能飞跃+HBM3 加持 * 6nm+HBM3:华为准备让SMIC的6nm工艺为Ascend 920生产,再塞上第四代高带宽内存 HBM3。想象一下,单卡FP16的算力900TFLOPS,带宽到4 TB/s,连跑最烧脑的AI模型都像刷朋友圈那么快。 * 40%性能提升:官方给的数据是,920比上一代产品快40%以上。 * 训练更高效:在原来架构上再打磨,训练效率比910C提高30%–40%。简直就像健身教练给你加了间歇训练,效果更惊人。 🔹 挑战与机遇并存 * 制程良率压力:SMIC的6nm仍未完全成熟,良率有点捉急。受限于没拿到ASML的EUV光刻机,不得不用老款 DUV,结果一步能搞定的事儿要拆成三步,良率和成本都要“捉急”一下。 * HBM3供应扑朔:全球只有三星、海力士和美光能量产HBM3,中国几家还没大规模跑起来。华为得想方设法 —— 囤货、找“备用路线”、或者跟代工厂抢都在所难免。 * 破局希望:别忘了,这也是千载难逢的机会。Nvidia的H20在中方市场被按住了,920一旦量产到位,就能顶上去,把空出来的市场空间占住。 2,UB-Mesh+超级节点:打破天花板 🔹 UB-Mesh的真正落地 * “UB统一通信协议”:前面说过,CM384是UB1.0,920、未来的超节点也会沿用它 —— 想象一群人从小说同一种土话,换吃的、换衣服都能秒聊没障碍。 * 超大规模NPU阵列:坊间有戏称,明年要上8,000卡“Super Node”,这规模简直能把Nvidia当打的NVL288的小打小闹甩脑后。训练大模型的时候再也不卡脖子。 🔹 超节点:国产的长板 * 网络带宽+鲁棒性:回头看NVidia 2022年没搞定全光的“Ranger”,导致GB200用的是铜缆方案;但去年底今年初NVidia仍然“小翻车”,居然搞不定稳定量产。而华为却搞定了超复杂的光互连CM384。华为在网络互联know-how,事实上领先于NVidia。 * 运营商+地方政府扎堆入局:你要是留意招标,发现各地政府、三大运营商都在下大单 —— 上海周边、长三角、东北、西部…… 几百亿级别的单子,给超节点铺路。 * 未来想象:想象一下,某天有个8,000卡级别的超节点上线,跑起大模型来,比现在的集群更省心、更高效。期待国产算力卡第一次在训练比赛场打头阵。 3,最后一点彩蛋 🔹 “独立软硬件生态”:老黄最担心的就是美国管控越紧,中方越可能硬气起来,搞出自己一套AI软硬件生态,不再需要NVIDIA的芯片​。比如华为,硬件有超大节点,软件有MindSpore、DeepSeek、vLLM那一套,一起打包成“拿来就跑”的大模型部署方案,科研所、云厂商、大学都能秒上手。 🔹 从“跟跑”变成“领跑”:从Ascend 920、CM384,到UB-Mesh、超节点,再到MindSpore 2.7…… 中方正一步步把国产AI从“跟跑”变成“领跑”。记得之前有人说过:千万别低估中方工程团队在“1→10”阶段的爆发力 —— 给这些“卷王”一点空间,就能把“跟跑”变成“并跑”并“领跑”​。 这就是笔者眼中CM384的“将来”:硬件更猛、网络更宽、生态更全,国产 AI 的“核弹”威力,才刚刚开火。 说真的,笔者无比期待2026年的到来,期待今年910C的放量,期待920的到来,期待UB-Mesh架构的产品彻底落地。 写到这里,“这是一个最好的时代,也是一个最坏的时代”在笔者的眼里有了更多的含义, 🔹 “最坏”:技术封锁、关税壁垒把全球化的阳面撕开了缝,企业要在不确定的法规、供应链和资本环境中裸奔。 🔹 “最好”:正因为被逼到墙角,本土创新反而获得巨大激励 —— 从芯片设计、系统互连到整机架构,华为用“系统级工程”替代“单芯片竞速”,在算力和成本之间找到别样平衡。 狄更斯的话提醒我们:曲折并非终点,而是裂缝中透出的光。对中国的科技企业来说,壁垒既是束缚,也是倒逼自立的燃料;对全球产业而言,分化虽加剧,但多元技术路径也正在被重新发明。最好的时代与最坏的时代,其实只是同一张照片的正反面 —— 关键在于,站在画面里的我们如何选择姿势、创造光源。
美国,这片曾被来自欧洲的早期移民称为“新大陆”的土地,是人类文明进入新稳态时的起点。 她是起点,而不是终点。 在有些朋友认为美国已经进入其衰朽时期的此刻,我有截然不同的想法,在我看来,文明正在进入的不是衰败时期,而是青春期,一个动荡不安同时也充满希望的,具有蓬勃生命力的时期。 从经济角度看,全球市场已经在前一阶段的快速扩张下完成布局,绝大多数国家与地区都已经与全球产业链完成了利益绑定,无数人的生活方式已经不再“传统”,或是看似传统,但在关键节点上对全球产业链保持着极强的依赖性,例如中共国农业对化肥、种子的依赖和社会大众对进口平价粮农产品的依赖。 从文化角度看,经过这么长时间的全球交流和互联网技术发展,绝大多数国家的平民对几大主要民主国家的文化传统、价值观念也不再是一无所知。在那些智能手机和无线上网已经流行开来的地区,即使有各种宣传导致的偏见的影响,人们仍然能在相当程度上了解欧美国家的生活方式,并能通过与自己现有生活方式的对照了解彼此的相似和分歧。 多数国家已经在经济和文化两个层面做好了准备——在补全政治自维持机制后变成和欧美的今天高度相似的国家,进入文明新稳态的准备。 只是“画龙点睛”,仍缺这最后的一笔。 历史的演进过程往往是漫长又充满波折的,从物种演化的角度看,人类已经走得飞快。从开始使用石器到学会农耕,从部落聚居到兴建城市,从依赖血缘和婚姻建立信任到网签合同和区块链,我们经历了许多世代,但又仿佛只经历了一瞬。 尤其在最近的这一程,通讯技术的发展如此之快,大众从要借助收音机倾听国王的演说到能在线即时收到总统最新推文,不过才100年。 我们所熟悉的“文明”,我们已司空见惯的欧美现代社会生活方式,若算上智能手机的话,不过才出现20多年。 以一个超大型复杂系统的扩张而论,这样的扩张速度,是太快了,也太猛了。 所以有几步踉跄是难免的。 即使对最跟得上节奏的美国人来说,要及时学会如何对付“超级网红”型的政治人物,要在政治制衡机制里补上这一环,也是难度太高的任务。 更不要说世界真正需要面对的问题绝不是这位网红总统,而是全球贸易体系在前期快速扩张后,在已经打下经济基础和文化基础后,对锻造一套秩序供应机制来应对旧时代阵营反扑的“维稳”需求。 是的,美国是一个“世界国家”,在美国利益中,全球利益占据的份额极大。但当美国的全球利益和本土利益发生冲突,当民选总统站到本土利益一边,不断“退群”,由此令让单一国家垄断“全球维稳系统”的秩序供应的做法被事实证明既不健康也不安全之后,全球贸易体系的维稳需求到底该由谁来满足,该怎样满足,就成了一个全世界都需要去思考和努力解决的问题。 因为如果这个问题得不到解决,全球贸易体系将趋于瓦解甚至崩溃。一旦这样的事情发生,很显然,我们就会一起经历一场史无前例的全球大衰退。 在这个真实存在的问题得到解决以前,历任美国总统的“保持风度”,历届美国政府的兼顾两头,都只是拖延,而二战以来的和平秩序就算在各国的绥靖中继续存在,也只能是苟且。 但人类已在深深地依赖这份和平秩序。 据不完全统计,1950年代,全球人口才约25亿。但到了今天,全球人口总数已达80亿之多。 这些“多出来”的人口为什么在过去的世代不曾出现过?这不仅是因为过去世代的农业技术、医疗技术没有今天发达,更重要的是,在和平环境下飞速发展的全球合作,包括商贸与技术合作,令创造史无前例的巨大财富增量成为可能。 人类在总体上更富裕了,所以能生育更多的后代。 即使生育率在部分国家是下降的,但由暂时存在的和平秩序生发出的远比人类历史上更大规模的技术合作和经济合作,为整个人类争取到了更大的生存空间,令地球向人类开放了更大的人口容量。 从25亿到80亿,能在这颗小小蓝色星球上存活的人类,整整多出了55亿。 如果从美国的“转向”开始,全球要一同回到旧的文明模式中去,这多出的55亿人将无处存身。 有55亿人想要活下去。 这就是满足全球贸易体系的维稳需求这个议题背后的驱动力。 而他们知道,即使他们今天仍不知道将来也一定会清醒过来,知道只有保住由全球技术合作和经济合作带来的财富增量,只有留在产业链阵营,才能让自己不会由富返贫,才能让自己活下去。 今天的美国已经不想继续当那根支撑大厦的“独木”,她希望改变自己的角色,不再为维护和平秩序做这个“地球村”的义警。 但大厦会寻到新的支点。 因为这件事有利可图。 在全球经贸体系的扩张中获得过巨大利益的人们会试图保住自己的既得利益,让那55亿人活下去绝不会仅仅是场声势浩大的慈善义演,那会是在文明迅猛发展过后进行的反思和调整,那会是各国各族在繁荣与萧条之间进行的历史抉择。 文明2.0在第一轮扩张后将进入盘整。 然后以更清醒更敏捷的姿态继续前行。 这就是我们正身处的时代,就是我们将经历的历史过程。 从美国开始,到欧洲,到亚洲,乃至非洲,所有人都会经历一场从格局到观念的大调整。 一切才刚刚开始。