时政
财经
科技
虚拟货币
其他
登录
#复杂度优化
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1周前
Full Attention 的公式: Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d}}\right)V 其中 Q, K, V \in \mathbb{R}^{N \times d}。 这一步的瓶颈就是 QK^T:产生了一个 N \times N 的矩阵。 方法:如何绕开 QK^T Sparse:只计算一部分 QKᵀ(如局部块或pattern) Linear:用核函数分解 softmax(QKᵀ) ≈ φ(Q)φ(K)ᵀ,使得计算可交换:Q(φ(K)ᵀV) Low-rank:用低秩近似减少矩阵维度 Memory-based:将一部分历史信息缓存,减少重新计算 结果:复杂度从 O(N²) 降到 O(N) 或 O(N·logN)。
#Attention机制
#复杂度优化
#Sparse
#Linear
#Low-rank
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞