Max For AI

Max For AI

0 关注者

7个月前

重磅!梁文锋拿奖了! DeepSeek-AI 与北大联合提出原生稀疏注意力 NSA,斩获 ACL 2025 最佳论文! ACL 2025 最佳论文刚刚揭晓,由 DeepSeek-AI 和北京大学等机构合作的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》荣获 Best Pa

#梁文锋获奖 #DeepSeek-AI #ACL 2025最佳论文 #原生稀疏注意力NSA #长文本处理

相关新闻

placeholder

Leo

1周前

Lance Martin(Anthropic,前 LangChain)这篇值得所有用 Claude 做开发的人读一遍。 核心观点:别为上一代模型的限制做工程设计。很多应用还在把 context 控制在 200K 以内——这些假设正在过时。 三个变化同时发生:窗口扩到 1M、长 context 下的检索和推理能力在持续提升(有 benchmark 数据)、200K 以上的加价取消了。 Clau

placeholder

拐子的区块链频道

9个月前

5.28 #要闻:DeepSeek R1模型已完成“小版本试升级”,本次更新在语义理解精准性、复杂逻辑推理、长文本处理进行了强化,更新后模型的理解能力、编程能力均大幅提升。这是两个月来DeepSeek首次模型更新

© 2025 news.news. All rights reserved. 0.0315 秒. v1.0.46
我的评论