#DeepSeek-AI

7个月前

重磅！梁文锋拿奖了！ DeepSeek-AI 与北大联合提出原生稀疏注意力 NSA，斩获 ACL 2025 最佳论文！ ACL 2025 最佳论文刚刚揭晓，由 DeepSeek-AI 和北京大学等机构合作的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》荣获 Best Paper Award！再次向大神云集的作者团队表示热烈祝贺！通讯作者包括我们熟悉的梁文锋 (Wenfeng Liang) 、张铭 (Ming Zhang) 和曾旺鼎 (Wangding Zeng)。这篇获奖论文直面下一代大模型长上下文处理的巨大计算挑战，提出了一种名为 NSA（Natively trainable Sparse Attention）的原生稀疏注意力机制。它的核心创新在于将算法设计与硬件优化深度融合。效果怎么样？看图说话！（图2️⃣ - 性能更优：实验结果显示，在通用、长文本（LongBench）及推理（Reasoning）各项基准测试中，NSA 的性能全面超越了传统的全注意力（Full Attention）机制。 - 速度起飞：NSA 实现了惊人的加速效果！在解码（Decode）、前向（Forward）和后向（Backward）传播阶段，分别达到了 11.6倍、9.0倍和6.0倍的速度提升！这项工作真正做到了性能与效率兼得，无疑是长文本领域的福音，为未来 AI 大模型的发展点亮了新的灯塔。为中国 AI 的力量喝彩！再次恭喜所有获奖的作者们！ #ACL2025 #DeepSeek #PekingUniversity #BestPaper #AI #NLP #大模型

#梁文锋获奖 #DeepSeek-AI #ACL 2025最佳论文 #原生稀疏注意力NSA #长文本处理