karminski-牙医

0 关注者

1个月前

DeepSeek 刚刚发布了新论文 Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models, 提出了 Engram, 即现有的 MoE 架构负责动态计算和推理, 单独的 Engram 部分用来存储和检索大模型的静态知识. 最重要的是, 这部分检索性能爆表, 复杂度是 O(1)

热门新闻