#端到端训练

1周前

论文来了。名字叫 MSA，Memory Sparse Attention。一句话说清楚它是什么：让大模型原生拥有超长记忆。不是外挂检索，不是暴力扩窗口，而是把「记忆」直接长进了注意力机制里，端到端训练。过去的方案为什么不行？ RAG 的本质是「开卷考试」。模型自己不记东西，全靠现场翻笔记。翻得准不准要看检索质量，翻得快不快要看数据量。一旦信息分散在几十份文档里、需要跨文档推理，就抓瞎了。线性注意力和 KV 缓存的本质是「压缩记忆」。记是记了，但越压越糊，长了就丢。 MSA 的思路完全不同： → 不压缩，不外挂，而是让模型学会「挑重点看」核心是一种可扩展的稀疏注意力架构，复杂度是线性的。记忆量翻 10 倍，计算成本不会指数爆炸。 → 模型知道「这段记忆来自哪、什么时候的」用了一种叫 document-wise RoPE 的位置编码，让模型天然理解文档边界和时间顺序。 → 碎片化的信息也能串起来推理 Memory Interleaving 机制，让模型能在散落各处的记忆片段之间做多跳推理。不是只找到一条相关记录，而是把线索串成链。结果呢？ · 从 16K 扩到 1 亿 token，精度衰减不到 9% · 4B 参数的 MSA 模型，在长上下文 benchmark 上打赢 235B 级别的顶级 RAG 系统 · 2 张 A800 就能跑 1 亿 token 推理。这不是实验室专属，这是创业公司买得起的成本。说白了，以前的大模型是一个极度聪明但只有金鱼记忆的天才。MSA 想做的事情是，让它真正「记住」。我们放 github 上了，算法的同学不容易，可以点颗星星支持一下。🌟👀🙏

#MSA #大模型 #注意力机制 #RAG #端到端训练 #记忆机制

9个月前

总结下今天讨论Space的核心观点： 1）马斯克可能就是我们这个时代的开普勒， 2）要放弃可解释性，认识到AI可能就是个黑盒子 3）业内人士对机器人都非常悲观，抓东西是难点，可能5-10年后才能成熟 4）但机器人的泡沫和投机性还是远小于量子计算和核聚变 5）幻觉是智能的必要条件，正如人需要做梦和想象一样。ChatGPT能出现幻觉是好事 6）机器人未来应该是端到端的训练，而非大模型和电机解耦 7）解释了飞机为什么会起飞，本质是分别考虑能量和动量守恒

#马斯克 #可解释性 #AI黑盒子 #机器人 #机器人泡沫 #量子计算 #核聚变 #智能幻觉 #ChatGPT #端到端训练 #大模型