Line

Line

0 关注者

7个月前

# Deepseek 的注意力优化算法: NSA 当前 AI 有一个很重要的能力指标叫上下文长度,这个长度在ChatGPT出来的时候是4K, 现在主流模型基本上做到了128K, 谷歌, MiniMax已经做到了1m,2m。 如果把这个长度类比成计算机内存,我们现在还处在晶体管时代。 这个长度难以拓展的原因在于注意力的复杂度上。随着问题上下文变长原始 Transformer 注意力的计算量呈平方