Line 0 关注者 关注 1周前 看这个图 Deepseek 的这次注意力创新 DSA 几乎实现了“常数”成本的长上下文,似乎无限上下文也不远了。 但是, 看报告复杂度依然是: O(L²),L 是序列长度。 怎么实现的? DeepSeek-V3.2-Exp的更新主要多了一个注意力索引模块, 他们叫闪电索引 (Lighting Indexer), 输入的上下文序列在这里计算打分,然后,挑选出与当前问题最相关固定的 2048 个 #DeepSeek #注意力机制创新 #Lighting Indexer #硬件性能压榨 #上下文长度优化 前往原网页查看