汉松

汉松

0 关注者

1周前

从零实现 vLLM 的第三篇文章,我们来了解如何加速 Attention 计算,学习 FlashAttention 的原理。 要理解 FlashAttention 的巧妙,我们必须先理解传统注意力机制的“笨拙”之处。 匹配度计算(QK):你(Query)拿着一个“科幻小说”的主题清单,去比对图书馆里成千上万本书的标签(Key),得出一个巨大的“匹配度”分数表。 权重分配(Softmax):你