#内存消耗

google今天这篇2025年4月的论文居然引发了存储的下跌,那我们就再重读一下: KV cache 一直是大模型推理里的最大内存消耗来源。论文的做法,本质是用信息论最优的方式去压缩这些数据。不是简单地降低精度,而是重新分配信息密度。普通部分用极低比特表示,异常值单独保留更高精度。同时不再逐元素处理,而是以向量为单位编码,因为 attention 本身就是内积结构。 关键的是,它的误差已经贴近信息论下界(香农极限),也就是说压缩效率已经非常接近理论极限。论文里给出的结果,大致是 4 到 4.5 倍的压缩,性能几乎没有明显损失。效果很明显,但后续再压缩而不损伤性能的可能性已经很小。 基于大科技的内部研发流程,论文的方法及可能对模型产生的优化效果很可能已经被工程分阶段吃掉了。 比方说,低比特量化早就被用起来了,从 int8 到 int4,再到更低精度,主流模型在推理侧基本都在用。异常值单独处理这件事也不是新东西,SmoothQuant、AWQ 这些方法本质上都在做类似的事情。KV cache 本身的压缩、滑窗、分层缓存,在大模型里也已经是常规配置。 真正还没完全落地的,是论文里更极致的那一部分,比如向量量化,以及更接近信息论极限的编码方式。这些方法的问题不是原理,而是工程实现,GPU 不友好,延迟控制难,稳定性和泛化也更复杂,所以可能需要更长时间实现。 如果一定要拍脑袋猜一下论文已经落地和还没落地的部分可能有多少的话,大致可能是这么个情况:最早的 KV cache 是 1 倍成本,简单量化之后可以做到 2 到 3 倍压缩,加上异常值处理可以到 3 到 4 倍,论文再往前推一点,大约到 4 到 4.5 倍。也就是说,大部分红利已经被拿走了,剩下的提升空间不大,而且代价越来越高。 这背后的原因也很清楚。前期压缩是在去掉冗余信息,后面面对的是有效信息,再压就会直接影响模型能力。误差不再是平滑变化,而是到某个点之后快速恶化。实现难度也不是线性增长,而是明显抬升。 从模型表现可以反推,现在的主流模型已经在用这些技术。长上下文能力、推理成本下降、性能稳定,这些现象本身就说明 KV cache 的效率已经被大幅优化。像 Google 这种级别的团队,大概率已经实现了低比特量化、异常值处理和一部分 KV 压缩。 也就是说,如果说google的这篇论文对存储可能有影响的话,其大部分的影响已经被体现了出来,还没体现出来的部分,其实施难度也会较之前更大。 更重要的是,这篇论文的意义不在于多省了多少内存,而在于给出了一个边界。KV cache 压缩这条路已经接近极限,剩下的提升空间很有限。接下来真正能带来变化的,不太可能再来自压缩本身,而是需要找到其他的路径。