阿泽KK

阿泽KK

0 关注者

1个月前

ACL 2025 最佳论文前两天公布了,俗话说:错过ACL 2025 = 在AI 2.0时代掉队🤣 于是今天一早,在 G 老师的协助下,火速拜读了由 DeepSeek & 北大等联合发表的论文:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。 📝 一句话总结:这篇论文不仅提出

#ACL 2025 #长上下文处理 #稀疏注意力 #DeepSeek #硬件对齐优化

相关新闻

placeholder

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

15小时前

之前就判断deepseek下个版本会在长上下文上突破,估计有戏

placeholder

bmwmengwei

15小时前

国行苹果电脑上用 DeepSeek 补齐 Xcode 26 的 AI 能力

placeholder

歸藏(guizang.ai)

1天前

Deepseek 又有更新,更新到了 3.2 Exp 主要的更新内容就是降价,再次降价超过 75%,输入输出都快要一样价格了,真离谱啊 原因是实现了细粒度的超稀疏注意力机制,在不降低模型输出质量的前提下实现了训练推理成本的大幅下降

placeholder

砍砍@标准件厂长

1天前

写了个脚本 把 Mac 上的 iOS/Xcode 项目打包映射进虚拟机去跑 claude 和 deepseek。yolo~

placeholder

orange.ai

1天前

价格屠夫 DeepSeek 又出手了,虽然性能有一点点下滑,但这价格就像蜜雪冰城让人无话可说。 新模型使用 DeepSeek Sparse Attention(DSA) 首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。

© 2025 news.news. All rights reserved. 0.26815 秒. v1.0.46
我的评论