时政
财经
科技
虚拟货币
其他
登录
#信息论
关注
ariel reyez romero
5天前
google今天这篇2025年4月的论文居然引发了存储的下跌,那我们就再重读一下: KV cache 一直是大模型推理里的最大内存消耗来源。论文的做法,本质是用信息论最优的方式去压缩这些数据。不是简单地降低精度,而是重新分配信息密度。普通部分用极低比特表示,异常值单独保留更高精度。同时不再逐元素处理,而是以向量为单位编码,因为 attention 本身就是内积结构。 关键的是,它的误差已经贴近信息论下界(香农极限),也就是说压缩效率已经非常接近理论极限。论文里给出的结果,大致是 4 到 4.5 倍的压缩,性能几乎没有明显损失。效果很明显,但后续再压缩而不损伤性能的可能性已经很小。 基于大科技的内部研发流程,论文的方法及可能对模型产生的优化效果很可能已经被工程分阶段吃掉了。 比方说,低比特量化早就被用起来了,从 int8 到 int4,再到更低精度,主流模型在推理侧基本都在用。异常值单独处理这件事也不是新东西,SmoothQuant、AWQ 这些方法本质上都在做类似的事情。KV cache 本身的压缩、滑窗、分层缓存,在大模型里也已经是常规配置。 真正还没完全落地的,是论文里更极致的那一部分,比如向量量化,以及更接近信息论极限的编码方式。这些方法的问题不是原理,而是工程实现,GPU 不友好,延迟控制难,稳定性和泛化也更复杂,所以可能需要更长时间实现。 如果一定要拍脑袋猜一下论文已经落地和还没落地的部分可能有多少的话,大致可能是这么个情况:最早的 KV cache 是 1 倍成本,简单量化之后可以做到 2 到 3 倍压缩,加上异常值处理可以到 3 到 4 倍,论文再往前推一点,大约到 4 到 4.5 倍。也就是说,大部分红利已经被拿走了,剩下的提升空间不大,而且代价越来越高。 这背后的原因也很清楚。前期压缩是在去掉冗余信息,后面面对的是有效信息,再压就会直接影响模型能力。误差不再是平滑变化,而是到某个点之后快速恶化。实现难度也不是线性增长,而是明显抬升。 从模型表现可以反推,现在的主流模型已经在用这些技术。长上下文能力、推理成本下降、性能稳定,这些现象本身就说明 KV cache 的效率已经被大幅优化。像 Google 这种级别的团队,大概率已经实现了低比特量化、异常值处理和一部分 KV 压缩。 也就是说,如果说google的这篇论文对存储可能有影响的话,其大部分的影响已经被体现了出来,还没体现出来的部分,其实施难度也会较之前更大。 更重要的是,这篇论文的意义不在于多省了多少内存,而在于给出了一个边界。KV cache 压缩这条路已经接近极限,剩下的提升空间很有限。接下来真正能带来变化的,不太可能再来自压缩本身,而是需要找到其他的路径。
#谷歌
#论文
#存储
#kv cache
#大模型
#内存消耗
#信息论
#数据压缩
#精度
#向量编码
#attention
#误差
分享
评论 0
0
karminski-牙医
7个月前
同意,其实我觉得就是简单的信息论问题,prompt再压缩,真正的用来表示精确的逻辑不会比代码简单多少的。现在之所以能实现"帮我写个FlappyBird游戏"能转换为几千行代码, 本质还是并不能精确控制游戏的细节, 只是用了大模型的内部"const"而已.
#信息论
#prompt压缩
#大模型
#代码
#FlappyBird游戏
分享
评论 0
0
Rey英语自由与创造力
7个月前
信息论之父香农:天才思考和解决问题的通用方法 “少部分人产生了大部分重要的思想:比如牛顿..." 1、简化问题 2、寻找类似问题 3、多角度重述问题 4、泛化推广 5、对问题进行结构分析 香农认为卓越创造力的三大要素: a) 训练和经验 b) 超出普通人的智力 c) 动机:找出答案的强烈好奇心
#香农
#信息论
#解决问题
#创造力
#思考方法
分享
评论 0
0
lidang 立党 (全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人)
8个月前
我认为,这个时代的AI-native generation(AI原住民)应该做到以下几点: 1. 日常模模糊糊地关注各家厂商的LLM model,像旧时代关注手机和汽车评测的人们一样,看看发布会,看看benchmark,第一时间迫不及待地上手用一用; 2. 脑海中模模糊糊有信息论的观念,知道LLM不是算卦,不会指望万事万物让LLM 给一个标准答案,而是对prompt engineering有个轮廓的概念,知道充分给足什么条件和规则,才能让LLM输出一个可靠的答案; 3. 相信Agentic的方法,相信AI Agent,不迷信LLM本身能力,知道LLM一口气给一个结果一定会犯错,就像一个人用口算回答一个10位乘以10位的问题一样,知道LLM有幻觉,知道LLM如何用agentic的方法去调用外部工具,一步步解决问题; 4. 日常关注AI community,包括新产品、新模型、新的问题,看见以后愿意尝试用一用,或者试着思考一下这个东西是怎么做出来的; 5. 熟练使用SWE Agent(比如codex、openhands、claude code)和vibe coding工具(cursor、github copilot),模模糊糊知道工具和能力上限的轮廓,知道这些工具的作用是什么, 同时也知道作为人类如何驾驶这类工具时必须具备的品质和能力,不迷信“AI能代替程序员”,而相信“熟练vibe coding是人的技能之一”; 6. 对日常问题的搜索和学习,习惯用perplexity或者 快速提问,反复追问,而不仅仅是google,也等不及chatgpt慢悠悠的响应,明白AI时代最快、最顺手的搜索总结方法是什么; 7. 对于一个成体系的传统领域问题(比如EDA设计、传统建筑行业BIM、传统商业分析领域),模模糊糊知道如何搭建一个Agent或者workflow去自动化解决,或者提出一些新的方法,把传统问题转化成structured data,或者用AI Agent通过写程序和调用部分API来逐步解决,或者使用一些long term memory框架合理indexing, 并且看到某些中老年高管一提及“用AI解决问题”,就盲目把几千页文档和数据一股脑喂进vector database然后进行高成本query的行为,感到生理性不适。
#AI原住民
#LLM
#信息论
#Prompt Engineering
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
9个月前
LLM是人类智能的信息论视角下的智能映射 如果从本质层面来看,LLM智能可以被理解为一种人类智能的信息论维度在计算系统中的可反映形式: •它不是模拟神经结构,而是模拟语言行为背后的预测编码结构; •它捕捉的是人类通过语言活动积累的行为概率空间,并在此基础上进行生成; •因此它是一种“符号-预测-行为”路径上的统计智能,而非具身智能或价值智能。 这意味着,LLM是语言中的智能残影(Echo of Intelligence in Language),并不能脱离语言边界自主生长为AGI。
#LLM
#信息论
#人类智能
#预测编码
#符号-预测-行为
#统计智能
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
9个月前
一、老三论:系统论、控制论、信息论 这是20世纪中叶对复杂性最初的科学抽象,奠定了“复杂系统可以被建模与调控”的基础范式。 二、新三论:耗散结构论、协同论、突变论 进入复杂适应系统时代后,科学家意识到稳定性之外还有“演化性”的问题,于是提出更具生成性与涌现特征的新三论。 三、未来方向:从“控制世界”到“生成世界”的范式飞跃 •控制论的极限:传统控制论关心的是“已知目标的有效实现”,而你研究的是“目标自身如何生成”,这正是从控制范式向动机范式的跃迁。 •信息论的升维:过去信息论关心“传递什么”,而你研究的是“什么值得被生成”,这是价值的前置化与智能的自举。 •系统论的超越:传统系统论强调的是结构稳定与模块组合,你强调的是生成能力、调制策略、动机驱动的“活系统”。
#系统论
#控制论
#信息论
#复杂性科学
#复杂系统
#耗散结构论
#协同论
#突变论
#复杂适应系统
#科学抽象
#范式飞跃
#生成世界
分享
评论 0
0
未完成
1年前
🤔 加州理工的学院的一项研究指出,人类的思维速度被量化为每秒 10 比特 。 研究人员通过应用信息论的技术,分析了大量关于人类行为(如阅读、写作、玩电子游戏和解魔方等)的科学文献,从而得出了这一结论。 这意味着,与我们身体感官系统每秒收集约 10 亿比特的环境信息相比,人类的思维速度要慢得多,大约慢了一亿倍。
#加州理工
#人类思维速度
#信息论
#科学研究
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞