#存储

google今天这篇2025年4月的论文居然引发了存储的下跌,那我们就再重读一下: KV cache 一直是大模型推理里的最大内存消耗来源。论文的做法,本质是用信息论最优的方式去压缩这些数据。不是简单地降低精度,而是重新分配信息密度。普通部分用极低比特表示,异常值单独保留更高精度。同时不再逐元素处理,而是以向量为单位编码,因为 attention 本身就是内积结构。 关键的是,它的误差已经贴近信息论下界(香农极限),也就是说压缩效率已经非常接近理论极限。论文里给出的结果,大致是 4 到 4.5 倍的压缩,性能几乎没有明显损失。效果很明显,但后续再压缩而不损伤性能的可能性已经很小。 基于大科技的内部研发流程,论文的方法及可能对模型产生的优化效果很可能已经被工程分阶段吃掉了。 比方说,低比特量化早就被用起来了,从 int8 到 int4,再到更低精度,主流模型在推理侧基本都在用。异常值单独处理这件事也不是新东西,SmoothQuant、AWQ 这些方法本质上都在做类似的事情。KV cache 本身的压缩、滑窗、分层缓存,在大模型里也已经是常规配置。 真正还没完全落地的,是论文里更极致的那一部分,比如向量量化,以及更接近信息论极限的编码方式。这些方法的问题不是原理,而是工程实现,GPU 不友好,延迟控制难,稳定性和泛化也更复杂,所以可能需要更长时间实现。 如果一定要拍脑袋猜一下论文已经落地和还没落地的部分可能有多少的话,大致可能是这么个情况:最早的 KV cache 是 1 倍成本,简单量化之后可以做到 2 到 3 倍压缩,加上异常值处理可以到 3 到 4 倍,论文再往前推一点,大约到 4 到 4.5 倍。也就是说,大部分红利已经被拿走了,剩下的提升空间不大,而且代价越来越高。 这背后的原因也很清楚。前期压缩是在去掉冗余信息,后面面对的是有效信息,再压就会直接影响模型能力。误差不再是平滑变化,而是到某个点之后快速恶化。实现难度也不是线性增长,而是明显抬升。 从模型表现可以反推,现在的主流模型已经在用这些技术。长上下文能力、推理成本下降、性能稳定,这些现象本身就说明 KV cache 的效率已经被大幅优化。像 Google 这种级别的团队,大概率已经实现了低比特量化、异常值处理和一部分 KV 压缩。 也就是说,如果说google的这篇论文对存储可能有影响的话,其大部分的影响已经被体现了出来,还没体现出来的部分,其实施难度也会较之前更大。 更重要的是,这篇论文的意义不在于多省了多少内存,而在于给出了一个边界。KV cache 压缩这条路已经接近极限,剩下的提升空间很有限。接下来真正能带来变化的,不太可能再来自压缩本身,而是需要找到其他的路径。
芯片狂潮向存储蔓延,美光新高,闪迪暴涨,NAND涨价...等接连占据新闻头条。 虽然太多太多人鼓吹记忆体超级牛市通常是顶部标志,虽然确实有很多行业冥灯买入记忆体股票。但是作为一个永远在学习的平民,了解一下“记忆体”是什么? NAND Flash和DRAM 又究竟都是什么?最近说的减产涨价又是为什么? 学无止境,那我们就作为普通人,来学习一下记忆体的基本概念,帮助大家知识拓展/新闻阅读。小白科普文,大神可跳过。 1️⃣到底什么是“记忆体”?(Memory/Semiconductor Memory) “记忆体”在半导体产业中指用来存储数据的芯片或电路。 🌟没错,会看主语的朋友已经发现了,记忆体(Memory)本质上就是一种芯片。 📖它大致可分为两类: 易失性 (Volatile) 记忆体:断电后数据会丢失。典型代表是 DRAM(动态随机存取记忆体)等。 非易失性 (Non-volatile) 记忆体:断电后仍能保留数据。典型代表是 NAND Flash 、 NOR Flash。 事实上,根据摩根士丹利的分析,半导体行业,尤其是内存领域,正处在一个关键的周期转折点。AI引发的芯片狂热正从GPU等逻辑芯片,迅速蔓延至存储芯片领域。存储市场,特别是闪存(NAND),正处于一个持久上升周期的“早期阶段”。 2️⃣记忆体都用在哪里呢? 根据前面的分类, 🧐DRAM:提供计算机/服务器中处理器运行时所需的临时数据存储。读取-写入速度快,但断电后数据消失。 🧐NAND Flash:常用于存储设备如 SSD、USB 盘、手机存储。断电后仍可存数据,容量大但相比 DRAM延迟高。 🧐HBM(High Bandwidth Memory):一种专为高性能计算/AI 设计的高带宽记忆体,通常采用堆叠结构,用于 GPU、服务器等。 目前市场上所谓“记忆体需求大增”,主要并不是所有类型的 memory 都一起涨,而是集中在 AI 驱动的高带宽、高速类记忆体。 🌟当前最火的主角:HBM(高带宽记忆体),AI的核心获益者 它是为 AI GPU/高性能计算芯片 专门设计的堆叠式记忆体。通过垂直堆叠 8 ~ 12 层 DRAM 晶粒,并使用“硅通孔(TSV)”实现超高带宽传输。 🌟供不应求且频频涨价的NAND NAND短期需求井喷 云服务提供商(CSPs)因AI推理业务和机械硬盘供应受限,提前数月便开始为2026年的存储需求进行谈判。这一订单热潮直接导致闪存相关公司股价飙升,截至9月23日,SanDisk股价已暴涨95%,KIOXIA上涨75%,远超同期SOX指数10%的涨幅。 驱动这轮狂潮的核心力量,是超出预期的近线企业级固态硬盘(NL eSSD)订单。尽管市场对“重复下单”存在担忧,但大摩认为,即便在其最乐观的模型中,假设2026年市场仍将面临7%的供应缺口。 而和需求暴增同时出现的是,产能供应的不足。NAND市场有四巨头,他们分别是:铠侠、闪迪 #sandisk 、 $Samsung 和SK海力士 。 过去两年全球 NAND 市场经历严重价格崩跌(ASP 下跌超 60%),厂商利润大幅压缩甚至亏损。👉 现在,厂商通过减产企图“修复价格”与“回到盈利区间”。 闪迪管理层现在认为,在全行业参与者审慎控制供应增长的背景下,NAND产业的供不应求状况将持续贯穿整个2026年。 这一判断与市场观察高度一致。由于AI服务器对DDR5和HBM等高端内存的需求激增,各大芯片厂正优先将产能分配给这些高利润产品。这直接导致了用于消费级SSD和主流设备的NAND闪存及DDR4内存供应短缺。 闪迪已将11月NAND闪存合约价格大幅上调 50% ,DRAM内存价格同比飙升171.8%,三星和SK海力士等巨头仅能满足约70%的订单。 高盛认为,只要NAND市场的竞争对手继续保持供应纪律,价格的上涨趋势就将持续,这种有序的供需格局是支撑闪迪股价和利润率持续走高的最关键因素。 研报称,供不应求直接转化为定价能力,最终体现在利润率的飙升上。 相关链接: