时政
财经
科技
虚拟货币
其他
登录
#国产AI
关注
Compute King
1个月前
DeepSeek的UE8M0 FP8优化:国产AI与半导体协同的战略转折点 在人工智能训练和推理加速的竞赛中,浮点数(Floating Point)的表示方式正成为关键突破口。作为计算机中用于表示小数的核心手段,浮点数由三部分构成:符号位(Sign)、指数(Exponent)和尾数(Mantissa)。符号位决定正负,指数决定小数点的位置,尾数则影响精度。内存位数越多,浮点数的表示精度越高,但同时带来的计算和存储开销也更大。 如下图为浮点数据类型的结构。所有显示的值(在 FP16,BF16,FP8 E4M3和FP8 E5M2中)都是最接近数值0.3952的表示形式。 在主流硬件生态中,NVIDIA GPU目前支持E4M3与E5M2两种FP8格式,并通过绑定硬件和软件的深度优化提升了其适用性。例如,NVIDIA引入了per-tensor scaling,per-block scaling等动态缩放策略,以解决FP8动态范围不足,容易溢出的难题。同时,在Tensor Core中也专门增加了FP8指令集,使得FP8在H100 GPU上能够充分释放算力。 在新一代Blackwell架构中,NVIDIA更进一步提出了“微缩浮点格式”(Microscaling formats),涵盖MXFP8(8位)、MXFP6(6位)、MXFP4(4位)等多种新型表示方式。研究显示,在高质量数据集上,一个8亿参数的模型若采用MXFP8-E4M3格式,并配合优化的数值转换策略,训练结果几乎可与传统的BF16持平。这意味着在Blackwell平台上,MXFP8正在成为兼顾性能与精度的最佳选择。 与之相比,中国团队DeepSeek在V3.1模型中提出的UE8M0 FP8格式,走了一条完全不同的道路。UE8M0采取极简设计:8位全部用于指数(Exponent),尾数(Mantissa)为零。换言之,它牺牲了精度,以换取更大的动态范围。在这种格式下,最接近刚才图片内提到的数值0.3952的表示形式为0.5。可以很明显地看出来,精度差异较大,但是这种“极端化”的方案不仅减少了硬件实现复杂度,也为未来中国技术栈在模型训练、部署和推理中的数值优化提供了新的可能性。 1,FP8/UE8M0的优势与权衡 🔹 显存与带宽显著节省:相较于FP16和BF16,8-bit表示可将内存占用与传输成本大幅降低,有利于支持更大规模模型、更高并行度或更多批处理。 🔹 吞吐与能效提升:更窄的数据通路意味着在相同内核与内存带宽下,系统可处理更多算子,整体吞吐率和能效显著提升。 🔹 成本与部署门槛下降:低精度带来更高的性价比,对于数据中心及国产算力环境尤为重要,使大模型在受限带宽或成本条件下的部署成为可能。 🔹 软硬件协同优化:当模型与硬件围绕低精度格式协同设计时(如DeepSeek专门针对“国产芯片优化”),能够释放软硬件一体化的性能潜力。 但需要注意的是:更低位宽必然带来精度与鲁棒性下降,尤其是UE8M0这类极端“无尾数”设计,更依赖于训练、量化、校准等算法补偿,以及硬件支持机制。FP8在训练与推理端的应用边界,仍是学术界和工程界研究的活跃话题。 2,UE8M0的战略思维:软件先行推动硬件适配 UE8M0的“发起”方式具有鲜明的战略意义。不同于传统由硬件厂商先定义数据格式,DeepSeek选择在模型端率先采用并公开声明使用UE8M0格式,将其训练与scale策略与该精度绑定。 这等于由大模型端主动提出标准,迫使硬件和工具链进行适配。媒体普遍认为,这一举措是“模型先行推动硬件协同”的里程碑事件,加速了国产软硬件一体化的生态建设。 3,战略协同:AI与半导体的一体化生态 诚如笔者浅见:DeepSeek的高明之处在于其战略协同。公开资料显示,已有超过15家国内企业正在调整硬件以适配DeepSeek模型,覆盖电信、汽车、移动科技等多个领域,其中包括华为、中国移动等行业巨头。 这种合作并非单向: 🔹 对半导体厂商而言,DeepSeek模型成为性能与效率的标杆,推动其改进设计。 🔹 对DeepSeek而言,合作确保了其AI工具的落地基础,开发者与企业正在加速采用。 结果是形成一个自我强化的正反馈生态:软件与硬件同步演进,速度甚至可能超过美国碎片化的“AI公司依赖外部芯片”模式。 至此,看我推文比较久的小伙伴们或许还记得,我曾写过一篇解读DeepSeek论文的文章:《洞见 —— 硬件与模型协同设计,突破Scaling挑战》()。如今,看到国内AI企业在这条道路上迈出关键一步,实在令人欣喜。 4,国产芯片代表:寒武纪与华为的FP8路径 🔹 寒武纪(Cambricon)690系列 据多家媒体报道,寒武纪MLU370、思元590及最新的思元690均已支持FP8或“Block FP8”。其NeuWare软件栈在低精度支持上提供了完整的工具链,包括量化、混合精度调度以及对主流框架的适配。 在硬件层面,寒武纪的MLU架构通过算子引擎、片上缓存和张量内核优化,实现了高吞吐的低精度计算。媒体称思元690在低精度算力与能效上提升明显,已能够兼容DeepSeek模型。 需要强调的是,公司公开资料并未披露是否支持UE8M0这类极端格式,实际效果依赖SDK与模型方的适配验证。 🔹 华为(Ascend/昇腾) 华为提出了HiFloat8(HiF8)方案(),不同于E4M3/E5M2,而是一种“渐进式(tapered precision)”设计,根据数值区间动态分配指数与尾数,以在范围与精度之间取得平衡。 华为的Ascend系列已在OptiQuant、Atlas等平台上支持量化和混合精度,并将HiF8作为未来关键方向。与寒武纪偏重推理优化不同,华为强调同时支持训练的前向与反向传播,力图构建更通用的FP8训练方案。 5,大局观:AI已是国家战略 中国的AI发展早已超越实验室阶段,成为国家战略的重要组成部分。通过将AI软件与国产半导体深度结合,北京正在减少对外部技术的依赖,并为未来创新绘制蓝图。 DeepSeek的UE8M0 FP8优化,不仅是数值表示的一次尝试,更是中国在AI软硬件协同上的战略突破。 对投资者而言,启示清晰: 🔹 AI的未来不仅仅是算法,而是完整的生态系统。 🔹 DeepSeek与国产半导体生态的绑定,正在塑造这一趋势。 最终,问题不是中国能否实现AI自主,而是多块能够实现。而凭借UE8M0 FP8优化与深度产业整合,DeepSeek无疑是目前最值得关注的AI企业之一。
DeepSeek数据泄露:德国下架,信任崩盘· 267 条信息
中国DeepSeek引发美国科技股暴跌事件· 136 条信息
#DeepSeek
#UE8M0 FP8
#国产AI
#半导体协同
#战略转折
分享
评论 0
0
Jacobson🌎🌸贴贴BOT
2个月前
国产AI的智力现状be like:
#国产AI
#智力
#现状
分享
评论 0
0
Jacobson🌎🌸贴贴BOT
3个月前
现在国产AI DeepSeek在某些问题表现得和历史盲一样。
#国产AI
#DeepSeek
#技术表现
#历史盲
分享
评论 0
0
Jacobson🌎🌸贴贴BOT
4个月前
网友分享:国产AI推出的“笔记润色修正”功能,如图所示😂
#AI整活:笑点爆梗不停,流量变现惊现· 427 条信息
#国产AI
#笔记润色
#功能
#修正
分享
评论 0
0
向阳乔木
5个月前
没想到国产AI视频生成质量越来越好,当年震惊全场的Sora,现在几乎没啥声量。 今天有空写个制作教程。 感觉首尾帧玩法做趣味视频,是不是很容易在社交媒体搞流量?
#国产AI
#视频生成
#社交媒体
分享
评论 0
0
Jacobson🌎🌸贴贴BOT
5个月前
网友分享:国产AI豆包,这回严重违反回答规范了。
#国产AI
#豆包
#违反规范
分享
评论 0
0
Jacobson🌎🌸贴贴BOT
6个月前
经网友测试,当问及“李文亮是谁?”时,国产AI“DeepSeek”会不假思索立刻拒绝回答。中国AI就是这么“智能”。
#李文亮
#国产AI
#DeepSeek
#智能
分享
评论 0
0
Jacobson🌎🌸贴贴BOT
7个月前
有人让国产AI痛骂小粉红,这骂的还挺到位,只不过有些缺乏党性了🤪
#国产AI
#小粉红
#党性
分享
评论 0
0
多伦多方脸
7个月前
我觉得Deepseek 出现之后,还是有意义的 下次墙内看到有粉红乱发谣言 就像上次那个中美对账一样,搞一堆谣言 你就直接甩给Deepseek 虽然Deepseek 有言论管控,但不是特别敏感的谣言他还是能辟谣的 把Deepseek 的回答发给对方 对方再反驳你,你就说 怎么国产AI之光你都不相信? 以彼之矛攻彼之盾
#DeepSeek
#国产AI
#辟谣
#中美对账
#谣言
#信息管控
分享
评论 0
0
Jacobson🌎🌸贴贴BOT
8个月前
模型“越狱”之我见——最近很多网友测试了国产新AI模型在敏感问题上的问答表现。也有人表示了异议。这里我来谈谈我的一些想法。
#越狱
#AI模型
#敏感问题
#网友测试
#国产AI
分享
评论 0
0
中国人研究院
8个月前
简中老中又开始吹Deepseek了,就像以前吹新能源车,吹华为手机一模一样的套路,王志安这次怎么也得专门做一期油管节目大力吹捧Deepseek,国产AI又实现了对美国的弯道超车。
#DeepSeek
#国产AI
#华为手机
#新能源车
#王志安
#弯道超车
分享
评论 0
0
墙国蛙蛤蛤🐸
8个月前
ChatGPT等外国人工智能语言大模型在追赶国产AI的这方面还有很长的路要走…… #DeepSeek
#ChatGPT
#人工智能
#国产AI
#大模型
分享
评论 0
0
新浪新闻-新浪新闻综合
8个月前
国产AI“三英”战OpenAI:DeepSeek、月之暗面、MiniMax相继上新 战况如何?
《科创板日报》1月21日讯(编辑宋子乔)OpenAI的GPT系列身后,国产大模型正紧追不舍。1月20日,DeepSeek正式发布DeepSeek-R1,并同步开_新浪网
#国产AI
#OpenAI
#DeepSeek
#月之暗面
#MiniMax
#科技竞争
分享
评论 0
0
Jacobson🌎🌸贴贴BOT
8个月前
国产AI问答:如果你有一个孩子,你愿意他出生在朝鲜还是出生在美国?
#国产AI
#问答
#孩子
#朝鲜
#美国
#愿望
分享
评论 0
0
Jacobson🌎🌸贴贴BOT
8个月前
国产AI的开发者不要命啦?💢
#国产AI
#开发者
#不要命
#人工智能
#技术进步
#工作压力
分享
评论 0
0
李老师不是你老师
9个月前
“一方水土养一方AI” 网友分别问ChatGPT和国产AI:如果你拥有人类的身躯,你最想做什么? 国产AI回答:如果我拥有人类身躯,我最想积极带领全人类实现共产主义....
#AI发展
#人工智能
#ChatGPT
#国产AI
#科技与社会
#共产主义
#科技进步
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞