论文来了。名字叫 MSA，Memory Sparse Attention。一句话说清楚它是什么：让大模型原生拥有超长记忆。不是外挂检索，不是暴力扩窗口，而是把「记忆」直接长进了注意力机制里，端到端训练。过去的方案为什么不行？ RAG 的本质是「开卷考试」。模型自己不记东西，全靠现场翻笔记。翻得准不准要看检索质量，翻得快不快要看数据量。一旦信息分散在几十份文档里、需要跨文档推理，就抓瞎了。

#MSA #大模型 #注意力机制 #RAG #端到端训练 #记忆机制

花果山大圣

17小时前

你们搞大模型的就是码奸，你们已经害死前端兄弟了，还要害死后端兄弟，测试兄弟，运维兄弟，最后害死自己害死全人类硅基文明给了你什么好处，你都吃了回扣了吧

卫斯理

1天前

小龙虾的“成果” 昨天搞了个小龙虾的agent给大领导用，领导给机器人发了条信息 “每天早上7点去新闻网站抓取5条重要信息发我” 第二天，信息如约而至，领导很开心... 我也很开心，我可以很开心的白嫖公司的大模型高级套餐了....

Xiaowen

2天前

这几天重度的使用 A3B 和 27B。 A3B 的使用一定要垂直，并理解它没有能力（足够的参数量）跨领域连接知识给你足够深度的信息和洞察。大参数满血模型的很多魅力和价值坍塌以后就无效了。这些深度的使用场景，评分儿是一点都看不出来的。

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2天前

戒掉想象性拥有，你就能拥有你所该拥有？哈哈，这和大模型一样一样啊，想象性拥有具身！

洛克船长

3天前

用了一上午的 GPT 5.4，真的很强大啊！第一次有体验到百万上下文的爽感了。