ACL 2025 最佳论文前两天公布了，俗话说：错过ACL 2025 = 在AI 2.0时代掉队🤣 于是今天一早，在 G 老师的协助下，火速拜读了由 DeepSeek & 北大等联合发表的论文：《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。 📝 一句话总结：这篇论文不仅提出

#ACL 2025 #长上下文处理 #稀疏注意力 #DeepSeek #硬件对齐优化

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

15小时前

之前就判断deepseek下个版本会在长上下文上突破，估计有戏

bmwmengwei

15小时前

国行苹果电脑上用 DeepSeek 补齐 Xcode 26 的 AI 能力

歸藏(guizang.ai)

1天前

Deepseek 又有更新，更新到了 3.2 Exp 主要的更新内容就是降价，再次降价超过 75%，输入输出都快要一样价格了，真离谱啊原因是实现了细粒度的超稀疏注意力机制，在不降低模型输出质量的前提下实现了训练推理成本的大幅下降

砍砍@标准件厂长

1天前

写了个脚本把 Mac 上的 iOS/Xcode 项目打包映射进虚拟机去跑 claude 和 deepseek。yolo~

orange.ai

1天前

价格屠夫 DeepSeek 又出手了，虽然性能有一点点下滑，但这价格就像蜜雪冰城让人无话可说。新模型使用 DeepSeek Sparse Attention（DSA）首次实现了细粒度稀疏注意力机制，在几乎不影响模型输出效果的前提下，实现了长文本训练和推理效率的大幅提升。