时政
财经
科技
虚拟货币
其他
登录
#稀疏注意力
关注
阿泽KK
2周前
ACL 2025 最佳论文前两天公布了,俗话说:错过ACL 2025 = 在AI 2.0时代掉队🤣 于是今天一早,在 G 老师的协助下,火速拜读了由 DeepSeek & 北大等联合发表的论文:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。 📝 一句话总结:这篇论文不仅提出了一个新的 Attention 结构,更重要的是,它为“大模型在训练和推理阶段如何高效处理长上下文”这个老大难问题,给出了一个真正可落地、可扩展的结构性解法。 𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅 01|先捋清楚:长上下文处理,难点在哪? 原始 Transformer 的 Attention 是全连接的 —— 每一个 token 都要跟前面所有 token 做一次注意力计算。 这种结构虽然简单有效,但当上下文长度从 2K 增加到 64K 时,计算量和内存需求就会指数级飙升,直接拖垮效率。 比如当前主流大模型是“自回归”地一个词一个词生成,也就是说每输出一个 token,都要重新读并计算之前所有的 token,导致 GPU 明明计算力挺强,但要一直等计算完才行 —— 这就像在做阅读理解题,每写一个字,都得从头看前面写了啥。所以写得慢,不是因为不会写,而是因为每次回看太耗时间了。 NSA 论文也指出,在处理 64K token 的长上下文时,光是 Attention 模块里的 Softmax 操作就占了70~80% 的推理延迟,很影响效率。 02|稀疏化注意力早就被提出了,为什么以前都没完美解决难题? 其实很多人早就尝试用“稀疏注意力”来减轻计算压力,比如BigBird:滑动窗口 + 全局 token + 跳跃连接、ClusterKV:对 token 做语义聚类,只关注代表性 token等等。 但这些方法基本都只能在“推理阶段”用,训练阶段模型根本学不会怎么选重点。 更致命的是:很多稀疏策略是离散不可导的,模型压根无法“学着自己调整关注重点”。 通俗点说:以前的方法更像是“临时抱佛脚看重点”,而不是“从一开始就学会划重点”。 所以模型最终也就学不到真正高效理解文本的能力,无法从根本解决长上下文的挑战。 03|NSA 的核心创新:让模型从训练第一天起就学会“划重点” 它是怎么做到的?由两大关键组成:三分支注意力机制 + 可微分门控融合。 三分支注意力机制: 1️⃣ 压缩注意力:快速扫一眼,抓全局概念。➡️ 类似于看目录、抓关键词。 2️⃣ 选择注意力:选择重要的内容看 ➡️ 类似跳读找重点,精准阅读。 3️⃣ 滑动注意力:保留局部上下文信息,确保语义连贯。➡️ 类似连着上下文看,不跳行。 可微分门控融合: 前面说的三种注意力机制并不是互斥的,而是并行存在的。然后在NSA 中每个 token 都通过一个小的门控网络(MLP)生成三个融合权重,对三路注意力输出加权平均。 这一步很关键: ✅ MLP 是可微分的,意味着这些权重是可训练的; ✅ 每个 token 都可以根据自己的上下文内容,动态决定到底用多少“扫一眼”,用多少“挑重点”,用多少“连着看”。 👉 换句话说,模型就像有了内建的“阅读策略”: 该扫一眼时扫一眼、该精准跳读时跳读、该连着读时不跳行,从头到尾都在自主划重点。 04|还有一项关键突破:硬件对齐优化 以往稀疏 Attention 最大的难点之一是:你虽然选中了 10 个重点 token,但它们分布在 GPU 内存中各个角落,导致读取时要跳来跳去,访问成本高,效率不升反降。 NSA 在执行上设计了原生的可训练稀疏 Attention 路径,并和底层硬件执行方式做了深度对齐 —— 虽然细节略复杂,但结论很清晰。 05|那实际效果怎么样?来看多个维度的评测: ❇️ 通用任务(如 MMLU、HumanEval):9个基准中7项优于全Attention ❇️ 长文本任务(如 LongBench):在64K tokens下准确率保持100% ❇️ 链式推理任务(如 AIME 数学题):在8K/16K上下文下大幅超越全Attention,推理逻辑能力更强 更重要的是:这些性能是在显著降低显存和推理延迟的同时实现的。 𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅 📍总结一下: 过去做不出NSA,是因为“划重点”的方法太随机、太粗暴,模型既学不会也算不快。 而NSA则把“划重点”变成一种可以训练的能力,还找到了让GPU快速配合的方法,真正让稀疏注意力从“理想”变成了“实用”。 如果你也对这个领域感兴趣,NSA 的论文绝对值得啃完一遍。毕竟——长上下文不是下一个挑战,而是现在的主战场。 #AI #NSA #ACL2025NLP #Studylog #DeepSeek
#ACL 2025
#长上下文处理
#稀疏注意力
#DeepSeek
#硬件对齐优化
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞