google今天这篇2025年4月的论文居然引发了存储的下跌，那我们就再重读一下： KV cache 一直是大模型推理里的最大内存消耗来源。论文的做法，本质是用信息论最优的方式去压缩这些数据。不是简单地降低精度，而是重新分配信息密度。普通部分用极低比特表示，异常值单独保留更高精度。同时不再逐元素处理，而是以向量为单位编码，因为 attention 本身就是内积结构。关键的是，它的误差已经贴近

#谷歌 #论文 #存储 #kv cache #大模型 #内存消耗 #信息论 #数据压缩 #精度 #向量编码 #attention #误差

相关新闻

链研社｜AI First🔸💧

2小时前

转自公众号孤独大脑语言是人类最伟大的发明，也是人类最大的瓶颈。当大模型拆掉巴别塔，究竟会带来什么？人类靠语言构建文明，形成社会，发展出商业。人类垄断了语言，语言之间充满了摩擦和误解，大多数工作岗位因此而诞生。大模型来了，刹那间，降低了语言摩擦一、企业的本质是一个语言组织。B端真正被重构的，是企业这台语言机器本身。二、商业文明的底层代码不是货币，是语言。过去的软件自动化了"计

蓝点网

4小时前

苹果通过蒸馏谷歌 #Gemini 模型实现 #iOS 端侧计算，即本地计算、数据不需要发送到云端。苹果与谷歌达成的协议允许苹果完全访问 Gemini 模型，所以苹果通过蒸馏方式来构建执行特定任务的小模型，这些小模型可以实现本地计算，这样也可以满足苹果的隐私和安全需求。 👉

Inty News

1天前

川普：科技巨头自建电厂，美国人电费要降而且降得猛川普谈"费率保护承诺"：要求谷歌、xAI等大公司建数据中心时自己建电厂供电，不拖垮公共电网。他表示这些公司自掏腰包建电力设施，等于给纳税人补贴，美国人的电费不仅不会涨，还会降得相当猛。

0xTodd

1天前

新时代“码奸”😅 开发最聪明的大模型，写出最好用的 Skill。然后逼退前端兄弟，接着依次逼退后端兄弟、测试兄弟、运维兄弟、数据兄弟、网安兄弟。新时代“码门忠烈”🫡 用公司的 AI API，模型能选多贵选多贵，思考能拉多长拉多长，不用 Skill，删掉 MCP，就靠推理硬生成。不塞爆上下文，誓不开新对话。然后用月底的账单吓退拥抱 AI 的老板。

Geek

3天前

你们搞大模型的就是码奸🤣