𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞 0 关注者 关注 1周前 Full Attention 的公式: Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d}}\right)V 其中 Q, K, V \in \mathbb{R}^{N \times d}。 这一步的瓶颈就是 QK^T:产生了一个 N \times N 的矩阵。 方法:如何绕开 QK^T Sparse:只计算一部分 QKᵀ(如局部块或p #Attention机制 #复杂度优化 #Sparse #Linear #Low-rank 前往原网页查看