AI Dance

AI Dance

0 关注者

5天前

在 transformer 模型里,注意力权重很容易集中到序列开头的几个 token 上,尤其是第一个,这个现象叫做attention sink。之前很多论文的解释是,模型这么做是为了作为锚点。 但这篇文章提出了一个另外的观点:这根本不是模型学会的策略,而是 causal transformer 的数学结构天然就会导致的结果。 因为一旦引入 causal mask,attention 就相当于在一