Yangyi 0 关注者 关注 1个月前 看了一下Deepseek最新分享的DSA稀疏注意力的优化策略 个人理解如下: Deepseek的优化简单来讲做了两大部分,第一部分是对之前注意力机制的KV矩阵进行压缩,当需要时再解压,这样减少了内存占用 第二部分是引入闪电索引器,计算注意力前先计算粗略的索引分数,然后挑分数最高的那部分token进行精确注意力计算,把QK做8bit量化,但由于精度会损失,所以在此之前又增加了哈达玛变换,使数值更 前往原网页查看