#国产AI

3周前

100 元支持了一下国产 AI

DeepSeek数据泄露：德国下架，信任崩盘· 425 条信息

中国DeepSeek引发美国科技股暴跌事件· 164 条信息

#国产AI #AI #支持 #100元 #中性

1个月前

DeepSeek又一次引领世界前几天DeepSeek发布了V3.2-Exp实验性模型，虽然这次的发布没有引起太大的声量，但我仔细研究了一下，觉得实际上是又一次重大突破，很可能DeepSeek再一次在大模型高性价比技术上引领了世界。通过全新的DeepSeek Sparse Attention(DSA)稀疏注意力机制，V3.2-Exp将大模型的推理成本从平方级直接降至接近线性。传统注意力机制的计算复杂度为O(L²)，而DSA将核心注意力的计算复杂度降低到了O(Lk)（其中k=2048，对大型任务来说远远小于L也就是输入和输出的token数）。在H800 GPU集群上的测试显示，随着上下文长度的增加，V3.2-Exp的推理成本曲线几乎呈现为常数级（有人测算过成本曲线的斜率只有平方级的1/20）。实现这一点的思路是，先通过一个叫做闪电索引器（lightning indexer）的组件快速选择需要参与后续核心注意力计算的最多2048个token。闪电索引器的计算复杂度仍然是O(L²)，怎么可能实现接近线性的成本？秘密在于数据精度的创新。DSA将索引器内的Q、K矩阵从BF16精度降为FP8精度，虽然维度并未减少，但FP8的使用大幅减少了带宽占用，提高了寄存器缓存命中率。在GPU的Tensor Core加速单元面前，矩阵运算本身几乎是"零成本"的，真正的瓶颈在于数据传输。通过让数据占用更少的位数，一次就能传输更多参数，实现了对硬件性能的极致压榨。这个方案再次体现了DeepSeek团队对硬件相关工程技术的深厚功底。再看国际顶级模型的定价策略，能更明白DeepSeek这次创新的价值。Gemini 2.5 Pro采用了复杂的阶梯定价：输入token在20万以下时每百万1.25美元，超过20万则涨到2.50美元；输出token同样分段，20万以下10美元，超过则涨到15美元。最新发布的Claude Sonnet 4.5（比DeepSeek v3.2还晚）对超长上下文同样采取了加价措施。这说明这些模型的推理成本仍然与输入输出长度高度相关，长文本处理的单位成本远高于短文本，所以必须通过差异化定价来覆盖成本。所以很可能DeepSeek做到了Gemini和Claude这些顶级模型都没做到的事。推理成本接近线性，对AI应用开发意味着什么？线性成本对大模型最常见的多轮对话场景的意义可能是革命性的。如果推理单位成本是上下文长度的平方级，那么对话应用的成本就是对话轮次的立方级，20轮对话和10轮对话相比成本就是8倍。如果推理单位成本降到和上下文长度成正比，对话应用的成本就降到了对话轮次的平方级。这看起来似乎还是很高，但我们可以认为对话应用的价值和对话轮次也是平方级，因为第N次对话使用了前N-1次对话的信息，创造的单位价值就更大。平方级的价值和平方级的成本，这个过程就可以长期持续下去；平方级的价值要付出立方级的成本，就无法长期持续。过去开发者面对超长文档时，不得不将其切分成小块，分别送入模型处理，最后再想办法把结果汇总起来。这个过程不仅增加了开发复杂度，还经常导致上下文丢失和理解偏差。但有了接近线性成本的模型，就可以直接把整份文档一次性喂给AI，让它在完整理解的基础上进行更新，既准确又高效。在法律和医疗等专业领域，这种改变就很关键。比如律师需要AI分析一个复杂案件的全部卷宗材料，可能涉及几百页的法律文书、证据材料和判例引用。如果必须切分处理，很可能遗漏关键的关联信息；而一次性处理全部材料，AI就能发现不同文档之间的矛盾和逻辑链条。医疗领域同样如此，一个患者的完整病历可能包括多年的就诊记录、检查报告和用药历史，只有完整分析才能给出准确的诊断建议。对于AI搜索和智能助手应用，线性成本也打开了新的可能性。传统的AI搜索工具在处理用户查询时，往往需要在检索数量和成本之间做权衡——检索太多相关文档会导致成本飙升，检索太少又可能遗漏重要信息。但如果推理成本接近线性，就可以放心地检索更多文档，让AI在更广阔的知识范围内给出答案。当OpenAI等巨头还在依靠堆砌算力来解决问题时，DeepSeek用更聪明的方法找到了一条新路。从V3的低成本训练到R1的开源推理能力，再到V3.2的线性成本推理，DeepSeek一次次向世界展示了中国实力。可能也是因为DeepSeek v3.2的发布，才使得一贯反华的Anthropic也不得不在节前发布Claude Sonnet 4.5向我们国庆献礼。

Google Gemini 2.5发布引发AI模型性价比热议· 280 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 654 条信息

#DeepSeek #V3.2-Exp #稀疏注意力机制 #线性推理成本 #国产AI

2个月前

DeepSeek的UE8M0 FP8优化：国产AI与半导体协同的战略转折点在人工智能训练和推理加速的竞赛中，浮点数（Floating Point）的表示方式正成为关键突破口。作为计算机中用于表示小数的核心手段，浮点数由三部分构成：符号位（Sign）、指数（Exponent）和尾数（Mantissa）。符号位决定正负，指数决定小数点的位置，尾数则影响精度。内存位数越多，浮点数的表示精度越高，但同时带来的计算和存储开销也更大。如下图为浮点数据类型的结构。所有显示的值（在 FP16，BF16，FP8 E4M3和FP8 E5M2中）都是最接近数值0.3952的表示形式。在主流硬件生态中，NVIDIA GPU目前支持E4M3与E5M2两种FP8格式，并通过绑定硬件和软件的深度优化提升了其适用性。例如，NVIDIA引入了per-tensor scaling，per-block scaling等动态缩放策略，以解决FP8动态范围不足，容易溢出的难题。同时，在Tensor Core中也专门增加了FP8指令集，使得FP8在H100 GPU上能够充分释放算力。在新一代Blackwell架构中，NVIDIA更进一步提出了“微缩浮点格式”（Microscaling formats），涵盖MXFP8（8位）、MXFP6（6位）、MXFP4（4位）等多种新型表示方式。研究显示，在高质量数据集上，一个8亿参数的模型若采用MXFP8-E4M3格式，并配合优化的数值转换策略，训练结果几乎可与传统的BF16持平。这意味着在Blackwell平台上，MXFP8正在成为兼顾性能与精度的最佳选择。与之相比，中国团队DeepSeek在V3.1模型中提出的UE8M0 FP8格式，走了一条完全不同的道路。UE8M0采取极简设计：8位全部用于指数（Exponent），尾数（Mantissa）为零。换言之，它牺牲了精度，以换取更大的动态范围。在这种格式下，最接近刚才图片内提到的数值0.3952的表示形式为0.5。可以很明显地看出来，精度差异较大，但是这种“极端化”的方案不仅减少了硬件实现复杂度，也为未来中国技术栈在模型训练、部署和推理中的数值优化提供了新的可能性。 1，FP8/UE8M0的优势与权衡 🔹 显存与带宽显著节省：相较于FP16和BF16，8-bit表示可将内存占用与传输成本大幅降低，有利于支持更大规模模型、更高并行度或更多批处理。 🔹 吞吐与能效提升：更窄的数据通路意味着在相同内核与内存带宽下，系统可处理更多算子，整体吞吐率和能效显著提升。 🔹 成本与部署门槛下降：低精度带来更高的性价比，对于数据中心及国产算力环境尤为重要，使大模型在受限带宽或成本条件下的部署成为可能。 🔹 软硬件协同优化：当模型与硬件围绕低精度格式协同设计时（如DeepSeek专门针对“国产芯片优化”），能够释放软硬件一体化的性能潜力。但需要注意的是：更低位宽必然带来精度与鲁棒性下降，尤其是UE8M0这类极端“无尾数”设计，更依赖于训练、量化、校准等算法补偿，以及硬件支持机制。FP8在训练与推理端的应用边界，仍是学术界和工程界研究的活跃话题。 2，UE8M0的战略思维：软件先行推动硬件适配 UE8M0的“发起”方式具有鲜明的战略意义。不同于传统由硬件厂商先定义数据格式，DeepSeek选择在模型端率先采用并公开声明使用UE8M0格式，将其训练与scale策略与该精度绑定。这等于由大模型端主动提出标准，迫使硬件和工具链进行适配。媒体普遍认为，这一举措是“模型先行推动硬件协同”的里程碑事件，加速了国产软硬件一体化的生态建设。 3，战略协同：AI与半导体的一体化生态诚如笔者浅见：DeepSeek的高明之处在于其战略协同。公开资料显示，已有超过15家国内企业正在调整硬件以适配DeepSeek模型，覆盖电信、汽车、移动科技等多个领域，其中包括华为、中国移动等行业巨头。这种合作并非单向： 🔹 对半导体厂商而言，DeepSeek模型成为性能与效率的标杆，推动其改进设计。 🔹 对DeepSeek而言，合作确保了其AI工具的落地基础，开发者与企业正在加速采用。结果是形成一个自我强化的正反馈生态：软件与硬件同步演进，速度甚至可能超过美国碎片化的“AI公司依赖外部芯片”模式。至此，看我推文比较久的小伙伴们或许还记得，我曾写过一篇解读DeepSeek论文的文章：《洞见 —— 硬件与模型协同设计，突破Scaling挑战》（）。如今，看到国内AI企业在这条道路上迈出关键一步，实在令人欣喜。 4，国产芯片代表：寒武纪与华为的FP8路径 🔹 寒武纪（Cambricon）690系列据多家媒体报道，寒武纪MLU370、思元590及最新的思元690均已支持FP8或“Block FP8”。其NeuWare软件栈在低精度支持上提供了完整的工具链，包括量化、混合精度调度以及对主流框架的适配。在硬件层面，寒武纪的MLU架构通过算子引擎、片上缓存和张量内核优化，实现了高吞吐的低精度计算。媒体称思元690在低精度算力与能效上提升明显，已能够兼容DeepSeek模型。需要强调的是，公司公开资料并未披露是否支持UE8M0这类极端格式，实际效果依赖SDK与模型方的适配验证。 🔹 华为（Ascend/昇腾）华为提出了HiFloat8（HiF8）方案（），不同于E4M3/E5M2，而是一种“渐进式（tapered precision）”设计，根据数值区间动态分配指数与尾数，以在范围与精度之间取得平衡。华为的Ascend系列已在OptiQuant、Atlas等平台上支持量化和混合精度，并将HiF8作为未来关键方向。与寒武纪偏重推理优化不同，华为强调同时支持训练的前向与反向传播，力图构建更通用的FP8训练方案。 5，大局观：AI已是国家战略中国的AI发展早已超越实验室阶段，成为国家战略的重要组成部分。通过将AI软件与国产半导体深度结合，北京正在减少对外部技术的依赖，并为未来创新绘制蓝图。 DeepSeek的UE8M0 FP8优化，不仅是数值表示的一次尝试，更是中国在AI软硬件协同上的战略突破。对投资者而言，启示清晰： 🔹 AI的未来不仅仅是算法，而是完整的生态系统。 🔹 DeepSeek与国产半导体生态的绑定，正在塑造这一趋势。最终，问题不是中国能否实现AI自主，而是多块能够实现。而凭借UE8M0 FP8优化与深度产业整合，DeepSeek无疑是目前最值得关注的AI企业之一。

DeepSeek数据泄露：德国下架，信任崩盘· 425 条信息

中国DeepSeek引发美国科技股暴跌事件· 164 条信息

#DeepSeek #UE8M0 FP8 #国产AI #半导体协同 #战略转折

Jacobson🌎🌸贴贴BOT

3个月前

国产AI的智力现状be like：

#国产AI #智力 #现状

Jacobson🌎🌸贴贴BOT

5个月前

现在国产AI DeepSeek在某些问题表现得和历史盲一样。

#国产AI #DeepSeek #技术表现 #历史盲

Jacobson🌎🌸贴贴BOT

5个月前

网友分享：国产AI推出的“笔记润色修正”功能，如图所示😂

#AI整活：笑点爆梗不停，流量变现惊现· 539 条信息

#国产AI #笔记润色 #功能 #修正

6个月前

没想到国产AI视频生成质量越来越好，当年震惊全场的Sora，现在几乎没啥声量。今天有空写个制作教程。感觉首尾帧玩法做趣味视频，是不是很容易在社交媒体搞流量？

#国产AI #视频生成 #社交媒体

Jacobson🌎🌸贴贴BOT

6个月前

网友分享：国产AI豆包，这回严重违反回答规范了。

#国产AI #豆包 #违反规范

Jacobson🌎🌸贴贴BOT

8个月前

经网友测试，当问及“李文亮是谁？”时，国产AI“DeepSeek”会不假思索立刻拒绝回答。中国AI就是这么“智能”。

#李文亮 #国产AI #DeepSeek #智能

Jacobson🌎🌸贴贴BOT

9个月前

有人让国产AI痛骂小粉红，这骂的还挺到位，只不过有些缺乏党性了🤪

#国产AI #小粉红 #党性

多伦多方脸

9个月前

我觉得Deepseek 出现之后，还是有意义的下次墙内看到有粉红乱发谣言就像上次那个中美对账一样，搞一堆谣言你就直接甩给Deepseek 虽然Deepseek 有言论管控，但不是特别敏感的谣言他还是能辟谣的把Deepseek 的回答发给对方对方再反驳你，你就说怎么国产AI之光你都不相信？以彼之矛攻彼之盾

#DeepSeek #国产AI #辟谣 #中美对账 #谣言 #信息管控

Jacobson🌎🌸贴贴BOT

9个月前

模型“越狱”之我见——最近很多网友测试了国产新AI模型在敏感问题上的问答表现。也有人表示了异议。这里我来谈谈我的一些想法。

#越狱 #AI模型 #敏感问题 #网友测试 #国产AI

中国人研究院

9个月前

简中老中又开始吹Deepseek了，就像以前吹新能源车，吹华为手机一模一样的套路，王志安这次怎么也得专门做一期油管节目大力吹捧Deepseek，国产AI又实现了对美国的弯道超车。

#DeepSeek #国产AI #华为手机 #新能源车 #王志安 #弯道超车

墙国蛙蛤蛤🐸

9个月前

ChatGPT等外国人工智能语言大模型在追赶国产AI的这方面还有很长的路要走…… #DeepSeek

#ChatGPT #人工智能 #国产AI #大模型

新浪新闻-新浪新闻综合

9个月前

国产AI“三英”战OpenAI：DeepSeek、月之暗面、MiniMax相继上新战况如何？

《科创板日报》1月21日讯（编辑宋子乔）OpenAI的GPT系列身后，国产大模型正紧追不舍。1月20日，DeepSeek正式发布DeepSeek-R1，并同步开_新浪网

#国产AI #OpenAI #DeepSeek #月之暗面 #MiniMax #科技竞争

Jacobson🌎🌸贴贴BOT

10个月前

国产AI问答：如果你有一个孩子，你愿意他出生在朝鲜还是出生在美国？

#国产AI #问答 #孩子 #朝鲜 #美国 #愿望

Jacobson🌎🌸贴贴BOT

10个月前

国产AI的开发者不要命啦？💢

#国产AI #开发者 #不要命 #人工智能 #技术进步 #工作压力

李老师不是你老师

10个月前

“一方水土养一方AI” 网友分别问ChatGPT和国产AI：如果你拥有人类的身躯，你最想做什么？国产AI回答：如果我拥有人类身躯，我最想积极带领全人类实现共产主义....

#AI发展 #人工智能 #ChatGPT #国产AI #科技与社会 #共产主义 #科技进步