#Attention机制

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1周前

Full Attention 的公式： Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d}}\right)V 其中 Q, K, V \in \mathbb{R}^{N \times d}。这一步的瓶颈就是 QK^T：产生了一个 N \times N 的矩阵。方法：如何绕开 QK^T Sparse：只计算一部分 QKᵀ（如局部块或pattern） Linear：用核函数分解 softmax(QKᵀ) ≈ φ(Q)φ(K)ᵀ，使得计算可交换：Q(φ(K)ᵀV) Low-rank：用低秩近似减少矩阵维度 Memory-based：将一部分历史信息缓存，减少重新计算结果：复杂度从 O(N²) 降到 O(N) 或 O(N·logN)。

#Attention机制 #复杂度优化 #Sparse #Linear #Low-rank

karminski-牙医

6个月前

看到个博主 tycho_brahes_nose_ 搞了个以可视化的方式展示 GPT-2（小型）模型的3D演示。这个演示展示了输入prompt后每个注意力块的注意力权重矩阵的计算过程。注意力头在 y 轴堆叠， token 到 token 的交互在 x 轴和 z 轴上展示。非常有助于大家理解GPT模型是怎么运行的。在线体验地址：

#GPT-2 #人工智能 #模型可视化 #Attention机制 #3D展示