在 transformer 模型里，注意力权重很容易集中到序列开头的几个 token 上，尤其是第一个，这个现象叫做attention sink。之前很多论文的解释是，模型这么做是为了作为锚点。但这篇文章提出了一个另外的观点：这根本不是模型学会的策略，而是 causal transformer 的数学结构天然就会导致的结果。因为一旦引入 causal mask，attention 就相当于在一

#transformer模型 #注意力权重 #attention sink #causal mask #有向无环图

相关新闻

Berryxia.AI

1个月前

YouTube 最牛逼的AI频道（收藏级清单｜从0到进阶）想自学 AI，不想被信息噪音淹没？这 10 个频道够你用一年：从数学 → 代码 → 工程 → 研究 → 认知，闭环进阶。 1) 基础与直觉（数学底层） •频道：3Blue1Brown（7.6M）：把线代、微积分、神经网络讲成“能看见的直觉”。 •频道：StatQuest with Josh Starmer（1.48M）：统计/ML

karminski-牙医

1个月前

Rust 当然可以重写一切，Rust 重写的 Transformer 模型来了！需要注意这个实现完全不依赖CUDA，而是底层仅使用了 ndarray （Rust 的科学计算库）来实现了矩阵运算。进而实现了全部的库。可以当作一个学习型项目看一看。项目地址：