看这个图 Deepseek 的这次注意力创新 DSA 几乎实现了“常数”成本的长上下文，似乎无限上下文也不远了。但是, 看报告复杂度依然是: O(L²)，L 是序列长度。怎么实现的？ DeepSeek-V3.2-Exp的更新主要多了一个注意力索引模块，他们叫闪电索引 (Lighting Indexer), 输入的上下文序列在这里计算打分，然后，挑选出与当前问题最相关固定的 2048 个

#DeepSeek #注意力机制创新 #Lighting Indexer #硬件性能压榨 #上下文长度优化

相关新闻

LIN WEI

1周前

还是我爸先进，半年前就和我聊过 deepseek 的事了，这次回家就和我聊稳定币，让我 “多关注下区块链”，现在国家要在香港搞稳定币试点，这东西一旦搞起来，就会带来 “翻天覆地的变局”，所以要让我 “可以深入了解下，不要掉队”

LIN WEI

1周前

机场候机时边上有父子两，儿子开着笔记本写代码，爹在一旁边看边问“你们搞得这个和 ai 有什么关系吗？和现在那个 deepseek 有关吗？” 儿子说 “没有” 爹又问 “那个什么 deepseek 好像原来是做量化的，你们做的是不是和量化很像啊？” ，“不像”，爹一边听着一边皱着眉头，似乎很担心自己的儿子没跟上时代

1周前

DeepSeek又一次引领世界前几天DeepSeek发布了V3.2-Exp实验性模型，虽然这次的发布没有引起太大的声量，但我仔细研究了一下，觉得实际上是又一次重大突破，很可能DeepSeek再一次在大模型高性价比技术上引领了世界。通过全新的DeepSeek Sparse Attention(DSA)稀疏注意力机制，V3.2-Exp将大模型的推理成本从平方级直接降至接近线性。传统注意力机制的

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1周前

之前就判断deepseek下个版本会在长上下文上突破，估计有戏

bmwmengwei

1周前

国行苹果电脑上用 DeepSeek 补齐 Xcode 26 的 AI 能力