时政
财经
科技
虚拟货币
其他
登录
#attention
关注
ariel reyez romero
1周前
google今天这篇2025年4月的论文居然引发了存储的下跌,那我们就再重读一下: KV cache 一直是大模型推理里的最大内存消耗来源。论文的做法,本质是用信息论最优的方式去压缩这些数据。不是简单地降低精度,而是重新分配信息密度。普通部分用极低比特表示,异常值单独保留更高精度。同时不再逐元素处理,而是以向量为单位编码,因为 attention 本身就是内积结构。 关键的是,它的误差已经贴近信息论下界(香农极限),也就是说压缩效率已经非常接近理论极限。论文里给出的结果,大致是 4 到 4.5 倍的压缩,性能几乎没有明显损失。效果很明显,但后续再压缩而不损伤性能的可能性已经很小。 基于大科技的内部研发流程,论文的方法及可能对模型产生的优化效果很可能已经被工程分阶段吃掉了。 比方说,低比特量化早就被用起来了,从 int8 到 int4,再到更低精度,主流模型在推理侧基本都在用。异常值单独处理这件事也不是新东西,SmoothQuant、AWQ 这些方法本质上都在做类似的事情。KV cache 本身的压缩、滑窗、分层缓存,在大模型里也已经是常规配置。 真正还没完全落地的,是论文里更极致的那一部分,比如向量量化,以及更接近信息论极限的编码方式。这些方法的问题不是原理,而是工程实现,GPU 不友好,延迟控制难,稳定性和泛化也更复杂,所以可能需要更长时间实现。 如果一定要拍脑袋猜一下论文已经落地和还没落地的部分可能有多少的话,大致可能是这么个情况:最早的 KV cache 是 1 倍成本,简单量化之后可以做到 2 到 3 倍压缩,加上异常值处理可以到 3 到 4 倍,论文再往前推一点,大约到 4 到 4.5 倍。也就是说,大部分红利已经被拿走了,剩下的提升空间不大,而且代价越来越高。 这背后的原因也很清楚。前期压缩是在去掉冗余信息,后面面对的是有效信息,再压就会直接影响模型能力。误差不再是平滑变化,而是到某个点之后快速恶化。实现难度也不是线性增长,而是明显抬升。 从模型表现可以反推,现在的主流模型已经在用这些技术。长上下文能力、推理成本下降、性能稳定,这些现象本身就说明 KV cache 的效率已经被大幅优化。像 Google 这种级别的团队,大概率已经实现了低比特量化、异常值处理和一部分 KV 压缩。 也就是说,如果说google的这篇论文对存储可能有影响的话,其大部分的影响已经被体现了出来,还没体现出来的部分,其实施难度也会较之前更大。 更重要的是,这篇论文的意义不在于多省了多少内存,而在于给出了一个边界。KV cache 压缩这条路已经接近极限,剩下的提升空间很有限。接下来真正能带来变化的,不太可能再来自压缩本身,而是需要找到其他的路径。
#谷歌
#论文
#存储
#kv cache
#大模型
#内存消耗
#信息论
#数据压缩
#精度
#向量编码
#attention
#误差
分享
评论 0
0
Colin Wu
4个月前
大家越来越依赖 AI,对它的原理也想更多了解,AI 工具除了有大量训练数据还有卓越的逻辑推理能力,它还有一个厉害之处在于并行思维: GPT 或者其他工具,是一个拥有极大知识宇宙、并能以超高速进行逻辑推理的语言引擎。 普通人类的推理是:线性的,慢速的,需要检索记忆。AI 可以同时在数千条推理路径上做并行计算,然后把最可能有用的一条呈现给你。 好比你提出问题,AI 瞬间同时计算 200~2000 种可行答案,评分、排序、合并,输出最优组合体。 GPT 说: 你提一个问题,我会生成一个“候选答案宇宙”,然后自动挑出最像你会喜欢、最合理的那一个呈现。(看来真有讨好倾向) GPT 的核心就是:Attention(自注意力)是一种天然的“并行思维”结构。它允许模型:同时关注输入的多个部分,同时探索多条推理路径,同时产生多种候选计算,注意力头(Attention heads)就是“并行思维单元”。 并行推理 = 注意力头的并行 + 树状生成的并行 + 多版本推理链的并行。它们分别来自:Attention,天然并行的“多焦点思维”。Beam / Tree-of-Thought Search,多条候选答案路径生成。Self-Consistency & Reasoning Engine,多版本推理链交叉验证,选最佳。
#AI
#并行思维
#GPT
#attention
#逻辑推理
分享
评论 0
0
張小珺 Xiaojùn
4个月前
这篇很前沿,也很hardcore——关于算法和架构创新。 由于数据、算力、算法三驾马车,数据难度增大,中国算力相对有限,中国的算法走在了世界前沿。 近几年架构最大突破是DeepSeek的MoE,它让MoE成了全球共识;而下一个突破的重要方向可能是Attention。中国公司已经在Attention展开了不同技术bet。 本集我们从Kimi Linear、DeepSeek Sparse、Minimax M2、Qwen3-Next聊起,嘉宾分析点评了这些不同技术bet;也带领大家考古人工智能算法变种史,并预演未来算法与架构的改进方案(这里烧脑又精彩🤯)。 本集是我们的往期嘉宾松琳(Sonta)的返场。松琳在MIT的研究方向是线性注意力,参与了Kimi Linear和Qwen3-Next的工作,是Kimi Linear论文的作者之一。
#算法
#架构创新
#DeepSeek MoE
#attention
#Kimi Linear
分享
评论 0
0
Cell 细胞
7个月前
“影响力本位制”:货币只是一种过渡介质,真正的终极资产是 Attention & Influence。
#影响力
#attention
#Influence
#货币
#资产
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
8个月前
阶跃星辰stepfun可以的,这个step3的部署架构把attention和MLP分开,效率更高! LLM的下一个突破是啥?attention+MLP+?
Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#阶跃星辰
#step3部署架构
#attention
#MLP
#LLM
分享
评论 0
0
The Figen
1年前
Everyone needs attention. 😂
#attention
#mental health
#Psychology
#wellbeing
#social media
#self-care
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞