#注意力机制

论文来了。名字叫 MSA,Memory Sparse Attention。 一句话说清楚它是什么: 让大模型原生拥有超长记忆。不是外挂检索,不是暴力扩窗口,而是把「记忆」直接长进了注意力机制里,端到端训练。 过去的方案为什么不行? RAG 的本质是「开卷考试」。模型自己不记东西,全靠现场翻笔记。翻得准不准要看检索质量,翻得快不快要看数据量。一旦信息分散在几十份文档里、需要跨文档推理,就抓瞎了。 线性注意力和 KV 缓存的本质是「压缩记忆」。记是记了,但越压越糊,长了就丢。 MSA 的思路完全不同: → 不压缩,不外挂,而是让模型学会「挑重点看」 核心是一种可扩展的稀疏注意力架构,复杂度是线性的。记忆量翻 10 倍,计算成本不会指数爆炸。 → 模型知道「这段记忆来自哪、什么时候的」 用了一种叫 document-wise RoPE 的位置编码,让模型天然理解文档边界和时间顺序。 → 碎片化的信息也能串起来推理 Memory Interleaving 机制,让模型能在散落各处的记忆片段之间做多跳推理。不是只找到一条相关记录,而是把线索串成链。 结果呢? · 从 16K 扩到 1 亿 token,精度衰减不到 9% · 4B 参数的 MSA 模型,在长上下文 benchmark 上打赢 235B 级别的顶级 RAG 系统 · 2 张 A800 就能跑 1 亿 token 推理。这不是实验室专属,这是创业公司买得起的成本。 说白了,以前的大模型是一个极度聪明但只有金鱼记忆的天才。MSA 想做的事情是,让它真正「记住」。 我们放 github 上了,算法的同学不容易,可以点颗星星支持一下。🌟👀🙏
赵纯想
4个月前
人工智能骗子们说:神经网络模拟的正是人脑的工作方式。但是,从那篇论文《all you need is attention》,到现在,谜底始终写在谜面上。从天文数字的语料中提炼出来的,就是注意力。大模型在生成“成功、乃是、失败、之”之后,它的所有注意力,都瞄准了那个“母”字。 这是凝固的注意力,是僵尸注意力。而人脑的注意力是:我让你闭上眼睛,不许低头的情况下,告诉我,你手腕上的表丢了没有。这时候,你调动你的注意力,开始感受你手腕上传来,表的重量,你告诉我,你没有丢掉你的表。 信息的洪流从未停止向你的大脑输入!我不问你的时候,你的皮肤上,由表的重量传递而来的微弱压力,和那个“戴着那块表的感觉”,从未停止向你的大脑发送信号。只不过,你的大脑,选择了忽略这些输入。 忽略!伟大的忽略。 而神经网络,会处理输入它的一切垃圾,每时每刻,全量处理每一个细节。你在提示词里输入的任何一个,垃圾小逗号,都会影响最终输出的走向。 人在火车上,那么吵的环境,竟然能睡着。人在旱厕里,闻久了臭味,竟然觉得,没那么臭了?那是因为,花多了不香,屎多了不臭——重复信号多了,则降低它的权重! 动态注意力,动态权重。动态注意力,动态权重。 相比之下,预训练是什么意思?是创造了一个,”臭就是永远臭,香就是永远香“的灵魂。说白了,创造傻子。