#线性推理成本话题下的最新新闻、事件- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

DeepSeek又一次引领世界前几天DeepSeek发布了V3.2-Exp实验性模型，虽然这次的发布没有引起太大的声量，但我仔细研究了一下，觉得实际上是又一次重大突破，很可能DeepSeek再一次在大模型高性价比技术上引领了世界。通过全新的DeepSeek Sparse Attention(DSA)稀疏注意力机制，V3.2-Exp将大模型的推理成本从平方级直接降至接近线性。传统注意力机制的计算复杂度为O(L²)，而DSA将核心注意力的计算复杂度降低到了O(Lk)（其中k=2048，对大型任务来说远远小于L也就是输入和输出的token数）。在H800 GPU集群上的测试显示，随着上下文长度的增加，V3.2-Exp的推理成本曲线几乎呈现为常数级（有人测算过成本曲线的斜率只有平方级的1/20）。实现这一点的思路是，先通过一个叫做闪电索引器（lightning indexer）的组件快速选择需要参与后续核心注意力计算的最多2048个token。闪电索引器的计算复杂度仍然是O(L²)，怎么可能实现接近线性的成本？秘密在于数据精度的创新。DSA将索引器内的Q、K矩阵从BF16精度降为FP8精度，虽然维度并未减少，但FP8的使用大幅减少了带宽占用，提高了寄存器缓存命中率。在GPU的Tensor Core加速单元面前，矩阵运算本身几乎是"零成本"的，真正的瓶颈在于数据传输。通过让数据占用更少的位数，一次就能传输更多参数，实现了对硬件性能的极致压榨。这个方案再次体现了DeepSeek团队对硬件相关工程技术的深厚功底。再看国际顶级模型的定价策略，能更明白DeepSeek这次创新的价值。Gemini 2.5 Pro采用了复杂的阶梯定价：输入token在20万以下时每百万1.25美元，超过20万则涨到2.50美元；输出token同样分段，20万以下10美元，超过则涨到15美元。最新发布的Claude Sonnet 4.5（比DeepSeek v3.2还晚）对超长上下文同样采取了加价措施。这说明这些模型的推理成本仍然与输入输出长度高度相关，长文本处理的单位成本远高于短文本，所以必须通过差异化定价来覆盖成本。所以很可能DeepSeek做到了Gemini和Claude这些顶级模型都没做到的事。推理成本接近线性，对AI应用开发意味着什么？线性成本对大模型最常见的多轮对话场景的意义可能是革命性的。如果推理单位成本是上下文长度的平方级，那么对话应用的成本就是对话轮次的立方级，20轮对话和10轮对话相比成本就是8倍。如果推理单位成本降到和上下文长度成正比，对话应用的成本就降到了对话轮次的平方级。这看起来似乎还是很高，但我们可以认为对话应用的价值和对话轮次也是平方级，因为第N次对话使用了前N-1次对话的信息，创造的单位价值就更大。平方级的价值和平方级的成本，这个过程就可以长期持续下去；平方级的价值要付出立方级的成本，就无法长期持续。过去开发者面对超长文档时，不得不将其切分成小块，分别送入模型处理，最后再想办法把结果汇总起来。这个过程不仅增加了开发复杂度，还经常导致上下文丢失和理解偏差。但有了接近线性成本的模型，就可以直接把整份文档一次性喂给AI，让它在完整理解的基础上进行更新，既准确又高效。在法律和医疗等专业领域，这种改变就很关键。比如律师需要AI分析一个复杂案件的全部卷宗材料，可能涉及几百页的法律文书、证据材料和判例引用。如果必须切分处理，很可能遗漏关键的关联信息；而一次性处理全部材料，AI就能发现不同文档之间的矛盾和逻辑链条。医疗领域同样如此，一个患者的完整病历可能包括多年的就诊记录、检查报告和用药历史，只有完整分析才能给出准确的诊断建议。对于AI搜索和智能助手应用，线性成本也打开了新的可能性。传统的AI搜索工具在处理用户查询时，往往需要在检索数量和成本之间做权衡——检索太多相关文档会导致成本飙升，检索太少又可能遗漏重要信息。但如果推理成本接近线性，就可以放心地检索更多文档，让AI在更广阔的知识范围内给出答案。当OpenAI等巨头还在依靠堆砌算力来解决问题时，DeepSeek用更聪明的方法找到了一条新路。从V3的低成本训练到R1的开源推理能力，再到V3.2的线性成本推理，DeepSeek一次次向世界展示了中国实力。可能也是因为DeepSeek v3.2的发布，才使得一贯反华的Anthropic也不得不在节前发布Claude Sonnet 4.5向我们国庆献礼。