ariel reyez romero
14小时前
google今天这篇2025年4月的论文居然引发了存储的下跌,那我们就再重读一下: KV cache 一直是大模型推理里的最大内存消耗来源。论文的做法,本质是用信息论最优的方式去压缩这些数据。不是简单地降低精度,而是重新分配信息密度。普通部分用极低比特表示,异常值单独保留更高精度。同时不再逐元素处理,而是以向量为单位编码,因为 attention 本身就是内积结构。 关键的是,它的误差已经贴近
Inty News
1天前
川普:科技巨头自建电厂,美国人电费要降而且降得猛 川普谈"费率保护承诺":要求谷歌、xAI等大公司建数据中心时自己建电厂供电,不拖垮公共电网。 他表示这些公司自掏腰包建电力设施,等于给纳税人补贴,美国人的电费不仅不会涨,还会降得相当猛。