0 关注者

2个月前

看了一下Deepseek最新分享的DSA稀疏注意力的优化策略个人理解如下： Deepseek的优化简单来讲做了两大部分，第一部分是对之前注意力机制的KV矩阵进行压缩，当需要时再解压，这样减少了内存占用第二部分是引入闪电索引器，计算注意力前先计算粗略的索引分数，然后挑分数最高的那部分token进行精确注意力计算，把QK做8bit量化，但由于精度会损失，所以在此之前又增加了哈达玛变换，使数值更

热门新闻