#谷歌

google今天这篇2025年4月的论文居然引发了存储的下跌,那我们就再重读一下: KV cache 一直是大模型推理里的最大内存消耗来源。论文的做法,本质是用信息论最优的方式去压缩这些数据。不是简单地降低精度,而是重新分配信息密度。普通部分用极低比特表示,异常值单独保留更高精度。同时不再逐元素处理,而是以向量为单位编码,因为 attention 本身就是内积结构。 关键的是,它的误差已经贴近信息论下界(香农极限),也就是说压缩效率已经非常接近理论极限。论文里给出的结果,大致是 4 到 4.5 倍的压缩,性能几乎没有明显损失。效果很明显,但后续再压缩而不损伤性能的可能性已经很小。 基于大科技的内部研发流程,论文的方法及可能对模型产生的优化效果很可能已经被工程分阶段吃掉了。 比方说,低比特量化早就被用起来了,从 int8 到 int4,再到更低精度,主流模型在推理侧基本都在用。异常值单独处理这件事也不是新东西,SmoothQuant、AWQ 这些方法本质上都在做类似的事情。KV cache 本身的压缩、滑窗、分层缓存,在大模型里也已经是常规配置。 真正还没完全落地的,是论文里更极致的那一部分,比如向量量化,以及更接近信息论极限的编码方式。这些方法的问题不是原理,而是工程实现,GPU 不友好,延迟控制难,稳定性和泛化也更复杂,所以可能需要更长时间实现。 如果一定要拍脑袋猜一下论文已经落地和还没落地的部分可能有多少的话,大致可能是这么个情况:最早的 KV cache 是 1 倍成本,简单量化之后可以做到 2 到 3 倍压缩,加上异常值处理可以到 3 到 4 倍,论文再往前推一点,大约到 4 到 4.5 倍。也就是说,大部分红利已经被拿走了,剩下的提升空间不大,而且代价越来越高。 这背后的原因也很清楚。前期压缩是在去掉冗余信息,后面面对的是有效信息,再压就会直接影响模型能力。误差不再是平滑变化,而是到某个点之后快速恶化。实现难度也不是线性增长,而是明显抬升。 从模型表现可以反推,现在的主流模型已经在用这些技术。长上下文能力、推理成本下降、性能稳定,这些现象本身就说明 KV cache 的效率已经被大幅优化。像 Google 这种级别的团队,大概率已经实现了低比特量化、异常值处理和一部分 KV 压缩。 也就是说,如果说google的这篇论文对存储可能有影响的话,其大部分的影响已经被体现了出来,还没体现出来的部分,其实施难度也会较之前更大。 更重要的是,这篇论文的意义不在于多省了多少内存,而在于给出了一个边界。KV cache 压缩这条路已经接近极限,剩下的提升空间很有限。接下来真正能带来变化的,不太可能再来自压缩本身,而是需要找到其他的路径。
人类史上最大AI泡沫已至,破裂近在咫尺 2026年全球AI领域的资本投入疯狂到离谱,微软、谷歌等四巨头单年AI开支超6000亿美元,这一规模远超行业常规研发边界,成为人类有史以来最庞大的激进资本投入。但这场狂欢背后,藏着和当年乐视如出一辙的财务危机,甚至规模庞大千倍万倍,已成人类历史上最大的泡沫,且离破裂不远。 当年乐视为粉饰财报,将影视版权这种“易逝品”的成本用直线法摊销至10年,把利润前置、成本后置,最终因资产虚高、资金链断裂轰然倒塌。而如今的AI巨头,正复刻这一逻辑:英伟达GPU以传统摩尔定律5倍的速度迭代,1年就出颠覆性新品,上一代显卡很快沦为电子垃圾,GPU实际已成“易逝品”,本应缩短至2年以内加速折旧,但各大科技公司仍沿用6年直线摊销的传统法则,人为压低当期成本,让财报业绩看似亮眼,实则将巨大的折旧风险推迟到未来。 更可怕的是,当下AI产品几乎全采用订阅制,完美复刻了乐视当年“左脚订阅制、右脚成本后移”的会计魔法,在账面上制造出虚假繁荣。而科技巨头们的算力采购,早已成了囚徒困境式的防御博弈:明知硬件会快速贬值,却不得不咬牙举债疯狂下单,不跟进就可能被行业淘汰,最终被迫陷入高投入、高负债的恶性循环。 这一幕也与2000年科网泡沫高度相似:当年企业疯狂购置服务器,硬件快速迭代导致资产大幅贬值,供应商融资埋下财务炸弹,最终美联储加息、流动性收紧,大批公司破产,纳斯达克暴跌近80%。 如今英伟达成了当年的英特尔,甲骨文等企业疯狂加码AI算力,2026年预期资本支出飙升至500亿美元,净债务超千亿、债务股本比达500%,信用违约风险飙升;谷歌发100年期债券续命,每天烧数亿美元在AI算力上;微软更是通过云服务兑换券向OpenAI投资,形成左脚踩右脚的财务闭环,将初创公司风险绑在自己的资产负债表上。 市场的疯狂往往比理智更持久,没人能精准预测泡沫破裂的时间,财报不及预期、电力支撑不住算力扩张、坏账无法掩盖,都可能成为压垮泡沫的最后一根稻草。但可以确定的是,这场背离常识的繁荣终会落幕,而泡沫破裂的力度,将远超想象。 本贴转自 汤山老王 #AI泡沫 #宏观经济 #投资风险 #市场预警