重磅！梁文锋拿奖了！ DeepSeek-AI 与北大联合提出原生稀疏注意力 NSA，斩获 ACL 2025 最佳论文！ ACL 2025 最佳论文刚刚揭晓，由 DeepSeek-AI 和北京大学等机构合作的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》荣获 Best Pa

#梁文锋获奖 #DeepSeek-AI #ACL 2025最佳论文 #原生稀疏注意力NSA #长文本处理

相关新闻

Leo

1周前

Lance Martin（Anthropic，前 LangChain）这篇值得所有用 Claude 做开发的人读一遍。核心观点：别为上一代模型的限制做工程设计。很多应用还在把 context 控制在 200K 以内——这些假设正在过时。三个变化同时发生：窗口扩到 1M、长 context 下的检索和推理能力在持续提升（有 benchmark 数据）、200K 以上的加价取消了。 Clau

拐子的区块链频道

9个月前

5.28 #要闻：DeepSeek R1模型已完成“小版本试升级”，本次更新在语义理解精准性、复杂逻辑推理、长文本处理进行了强化，更新后模型的理解能力、编程能力均大幅提升。这是两个月来DeepSeek首次模型更新