时政
财经
科技
虚拟货币
其他
登录
#Attention机制
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1周前
Full Attention 的公式: Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d}}\right)V 其中 Q, K, V \in \mathbb{R}^{N \times d}。 这一步的瓶颈就是 QK^T:产生了一个 N \times N 的矩阵。 方法:如何绕开 QK^T Sparse:只计算一部分 QKᵀ(如局部块或pattern) Linear:用核函数分解 softmax(QKᵀ) ≈ φ(Q)φ(K)ᵀ,使得计算可交换:Q(φ(K)ᵀV) Low-rank:用低秩近似减少矩阵维度 Memory-based:将一部分历史信息缓存,减少重新计算 结果:复杂度从 O(N²) 降到 O(N) 或 O(N·logN)。
#Attention机制
#复杂度优化
#Sparse
#Linear
#Low-rank
分享
评论 0
0
karminski-牙医
6个月前
看到个博主 tycho_brahes_nose_ 搞了个以可视化的方式展示 GPT-2(小型)模型的3D演示。 这个演示展示了输入prompt后每个注意力块的注意力权重矩阵的计算过程。注意力头在 y 轴堆叠, token 到 token 的交互在 x 轴和 z 轴上展示。非常有助于大家理解GPT模型是怎么运行的。 在线体验地址:
#GPT-2
#人工智能
#模型可视化
#Attention机制
#3D展示
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞