meng shao
2个月前
[论文解读] LightMem: 轻量高效的记忆增强生成 —— 来自浙大的论文,针对 LLM 在动态交互中记忆不足的问题,提出一种高效的记忆系统,帮助 LLM 像人类一样处理历史信息,同时显著降低计算开销。 背景与问题 LLM 在单次任务中表现出色,但面对长上下文或多轮交互时,常因“中间丢失”问题而遗忘早期信息。传统记忆系统通过存储、检索和更新历史数据来缓解,但存在三大痛点: · 冗余信息:原始输入膨胀 token 使用,导致高成本。 · 语义丢失:孤立处理每个回合,忽略上下文连贯性。 · 实时更新延迟:在线维护记忆占用推理时间,影响响应速度。 论文受 Atkinson-Shiffrin 人类记忆模型启发(感觉记忆 → 短期记忆 → 长期记忆),设计 LightMem 系统,将记忆分为三个互补阶段,实现高效过滤、组织和巩固。 方法概述 LightMem 的架构简洁高效,分为三个模块(Light1–Light3),处理从原始对话到持久存储的全流程: 1. Light1: 认知启发感觉记忆(Sensory Memory) 快速过滤无关信息。 · 预压缩子模块:使用 LLMLingua-2 工具(或 LLM)保留关键 token,压缩比 r(0.4–0.8)控制保留率,避免冗余。 · 主题分割子模块:缓冲压缩内容至 512 token 时,结合注意力矩阵(捕捉局部依赖)和语义相似度(阈值 τ)进行混合分割,形成主题组。 这步像人类“瞬时感知”,轻量(GPU <2GB,运行时 negligible)。 2. Light2: 主题感知短期记忆(Short-Term Memory) 将主题组组织成索引结构 {主题, 消息回合}。 · 当缓冲达阈值 th(e.g., 512–768 token)时,用 LLM 生成摘要,形成条目(Entry):{主题, 嵌入摘要, 用户/模型消息}。 这确保语义连贯,减少 API 调用,同时保留关键上下文。 3. Light3: 睡眠时更新长期记忆(Long-Term Memory) 解耦在线推理与离线维护。 · 在线:软插入新条目(带时间戳),计算相似队列(Top-k 历史条目)。 · 离线:并行处理更新队列,避免实时 LLM 不确定性(如错误冲突)。 像人类“睡眠巩固”,显著降低延迟。 整体流程:输入对话 → 粒度处理(D^{(g)})→ 摘要(U)→ 更新(M'),但 LightMem 通过分层优化避免传统方法的低效。 实验与结果 · 基准:LongMemEval-S 数据集(500 个对话,~11 万 tokens/对话,增量回合输入)。后端模型:GPT-4o-mini 和 Qwen3-30B。 基线:FullText(全文本)、NaiveRAG、LangMem、A-MEM 等。 指标:准确率(ACC,由 GPT-4o-mini 判断);效率(token 数、API 调用、运行时)。 LightMem 在准确率上提升 2.7%–9.65%,效率提升显著(token 减少 117 倍,运行时快 12 倍)。最佳配置:GPT (r=0.7, th=512);Qwen (r=0.6, th=768)。 · 消融实验:压缩率 0.5–0.8 保持 80%+ 准确;混合分割优于单一方法(提升 5.4%–6.3% ACC)。 · 类别分析:在时间序列(Temporal,67.18%)、多会话(Multi-Session,71.74%)和知识更新(Knowledge-Update,83.12%)任务中表现突出。 论文地址: 开源地址:
Y11
2个月前
掌握任何技能的快速路径,其实可以用几个简单的步骤概括:先停止无意义的知识堆砌,然后用一个项目把技能框架搭起来,接着动手去做。 过程中必然会遇到难题,这时就针对性地去查资料、学方法,解决一个问题就往前迈进一步,直到完成整个项目。 很多人之所以在技能学习上停滞不前,总说“一直在学但没成果”,其实是陷入了“教程陷阱”。 就像我们看了很多烹饪视频,却从未真正下过厨炒菜;学了很多编程教程,却没写过一个完整的小工具。知识本身没有价值,只有用起来才有意义。 真正的学习发生在解决问题的过程中。 当你带着明确的目标去动手做一个项目时,遇到的每个坎儿都是学习的契机。 比如学写作,与其读十本写作理论书,不如先写一篇短文,写完后发现逻辑不通,再去研究怎么调整结构; 学设计,与其刷大量设计案例,不如先试着做一个简单的海报,遇到配色问题再去学色彩原理。 项目就像一座桥梁,连接着理论和实践。 它能帮你过滤掉无关的知识,聚焦最核心的部分。而且完成项目本身就是一种反馈,你会知道自己哪里做得好、哪里需要改进,这种“完成感”会让你更有动力继续深入。 所以,别再纠结“学够不够”,先找个小项目开始吧。哪怕一开始做得很粗糙,只要动手去做,就已经赢过了那些只停留在“学习”阶段的人。解决一个实实在在的问题,比读一百本理论书更能让你快速成长。
Cali Castle
2个月前
ChatGPT Atlas 浏览器发布以后我实际深度使用了一下。 这次先发的功能里有「浏览器记忆」,就说明 OpenAI 是希望通过记忆做到更私人的 AI 能力,让你越用越爱用,从而导致生态绑定,让你以后越来越难迁移出去(用过 Apple 生态的人应该都经历过) 我稍微写一下我的总结和与其他浏览器的对比: ⇢ 又一魔改 Chromium 的套壳 AI 浏览器,迁移浏览器数据支持 Chrome 和 Safari 历史记录和收藏夹,但不支持完整的 cookie 迁移(意味着都要重新登录) ⇢ 因为是 Chromium 所以天然的优势能支持 Chrome 的插件安装 ⇢ 是 Chromium 却不支持 group 标签页 ⇢ 支持标签页过多时候开启横向滚动 ⇢ 支持隐藏标签页,但只是一种不如 Arc 的伪极简 ⇢ 支持 cmd shift C 快速复制当前链接(可惜毫无视觉反馈) ⇢ 支持常驻和置顶标签页(即 cmd Q 再打开也能复原) ⇢ 没有 Dia 的「Skill」也不提供快捷键触发自定义 GPTs ⇢ 支持类似 Arc 的「偷瞄」功能,比如在 Gmail 里打开链接用小窗打开而不离开当前上下文,我发现普通的 pop-up 弹窗也被拦截换成了这种小窗的交互,挺有意思的(比如在使用一些网站点击 Google 登录的时候触发的) ⇢ cmd T 要想使用 Google 搜索而不是启用聊天的话要按 cmd + 回车 ⇢ 魔改了右键的菜单,只剩下「返回,刷新和打开开发工具」了,不知道是不是 bug 还是故意的,但会导致一些插件菜单无法显示出来 ⇢ 需要 ChatGPT 账号和合适的🪜网络环境才能使用的浏览器 ⇢ 不管身处哪个标签页都能侧边栏召唤左侧的 ChatGPT 对话历史和右侧的即时对话模式 ⇢ 每次对话和调用都会“弄脏”对话历史 ⇢ Agent 模式效果比 Comet 的好,Dia 的还在紧张开发中,整体缺点就是速度太慢。 ⇢ 嵌入了快捷文本编辑到每个文本框 ⇢ 打开开发者工具无法内联到视窗里,必须弹新窗口 ⇢ 没有 Arc 的 Air Traffic Control / Safari 的 Open links with profile 自动路由 ⇢ 能在设置里开启「离线总结网站」跟最智能的 Apple Intelligence 联动 随着功能迭代发展我感觉是不是 ChatGPT 桌面端的 app 就没有什么存在的必要了呢? 虽然这次功能还不够完善,不过我相信迭代速度不会放缓的,竞争对手们快卷起来吧。 Perplexity 的 CEO 公开说做 Comet 就是为了收集大家的浏览历史记录,才能打造最好用的个人级 AI。 Sam Altman 我想应该也是吧,只不过没有公开这么说 👀 我继续使用 Atlas 当我的默认浏览器试试一阵子。
《DCO 2025数字经济报告》数字世界不再是我们生活的一个独立部分;它就是我们的经济。我们需要理解它的发展轨迹,才能在其中生存和发展。这份报告就是你的未来地图。 到2025年,数字经济的价值预计将达到约24万亿美元,占全球GDP的21% 。这已经不是一个利基市场,而是一股主导力量。 1️⃣ AI正在“私人化” 从万能“大神”到你的专属“军师” ,像ChatGPT那样一个模型包打天下的时代正在过去。未来属于更小、更专业、更便宜的AI模型。它们被部署在你的手机、电脑甚至汽车上,专门解决特定行业或特定工作的问题,比如帮医生看片子,帮律师查案卷。 这意味着AI不再是科技巨头的专属玩具。小公司甚至个人都能用上定制化的AI工具,技术门槛和成本都在暴降 。这不仅是效率革命,更是一场技术权力的“民主化”下放。 未来的AI,不是一个全知全能的“神”,而是一群各有所长的“专家”。 2️⃣ 算法“算计”你 便利的背后是“被计划”的人生 ,超个性化已经超越了“猜你喜欢”。AI现在能预测你的需求,在你开口之前就把你想要的东西推到你面前。从你听的歌到你看到的新闻,都在被精心安排 。 这带来了极致的便利,但也隐藏着风险。当你的所有选择都被算法“优化”时,你可能会被困在一个“信息茧房”里,失去看世界的其他可能性 。便利和隐私、自由之间的平衡,正变得前所未有的脆弱。 当便利的代价是你的选择权时,你得到的不是个性化,而是“被计划”。 3️⃣ AI的“能源饥渴症” 聪明的代价是地球在“发烧” ,AI的每一次思考,都在消耗惊人的电力。到2026年,仅AI一项技术增加的用电量就可能相当于整个德国一年的消耗 。训练一个大模型,比5辆汽车一辈子的碳排放还多 。 这形成了一个巨大的悖论:我们既希望用AI解决气候变化等问题,但AI本身却成了能源消耗大户 。未来,一个国家能否在AI竞赛中领先,很大程度上取决于它能否获得足够多、足够便宜的绿色电力。 每一个由AI生成的惊艳图像背后,都有一座数据中心在默默“发烧”。 4️⃣ 知识“保质期”缩短 你的文凭正在加速“过期” , “学成就业”的观念已经彻底过时。数字经济中的技能迭代速度快得惊人,今天热门的技能,可能三年后就无人问津。持续学习、终身学习成了唯一的生存法则 。 这意味着你的职业生涯不再是一条笔直的阶梯,而更像一个需要不断攀爬和转换方向的“攀爬架”。未来的职场通行证,不再是一张大学文凭,而是一个由各种“微证书”和项目经验组成的、不断更新的技能包 。 过去,你靠一张文凭走天下;未来,你靠一身“补丁”闯江湖。 5️⃣ 你的手机正在“吞掉”银行 金融正在被“肢解”。储蓄、贷款、支付、投资这些传统银行业务,正被一个个拆分出来,变成各种App里的一个功能 。你可以在购物App里贷款,在社交软件里投资。 金融正在从一个你需要“去”的地方,变成一种随时随地可以“用”的服务。更重要的是,你的数据正在成为新的“抵押品”。未来评估你的信用,可能不再只看你的房产和收入,还会看你的手机使用行为和数字足迹 。 未来,你的信用评分可能不是看你的资产,而是看你的数据。 6️⃣ 数字游民的悖论 连接了世界,却失去了身边 ,我们通过数字平台与全球连接,肯尼亚、巴西等国的用户每天花在社交媒体上的时间接近4小时 。但与此同时,“孤独感”也在全球流行,数字成瘾和心理健康问题日益凸显。 我们似乎陷入了一个怪圈:连接我们的技术,却可能在某种程度上加剧了现实生活中的疏离。我们拥有了前所未有的信息和社交选择,但也可能因此失去了深度、真实的连接质量。 我们刷着别人的生活,却忘了经营自己的。 7️⃣ 网络安全进入“AI战争”时代 网络攻防不再是人与人的游戏,而是AI与AI的战争。黑客用生成式AI制造出极其逼真和复杂的攻击(比如伪造你老板的视频电话),而防御方也必须用AI以毫秒级的速度进行拦截 。 这意味着网络攻击的门槛被大大降低,而攻击的破坏力却指数级上升。对于个人而言,“数字怀疑主义”将成为一项基本生存技能。对于企业和国家而言,这场AI军备竞赛的胜负,将直接决定数字世界的安全边界。 当你的敌人是AI时,你唯一的盟友也只能是AI。 8️⃣ 量子黎明:所有数字保险箱即将失效? 一种能破解当今几乎所有加密方式的“万能钥匙”——量子计算,正在从理论走向现实。虽然离大规模应用还有几年,但威胁已经迫在眉睫 。 存在一种“现在偷数据,未来再解密”的风险。也就是说,很多今天被加密传输的重要信息(如国家机密、商业专利),可能已经被截获并储存,等待量子计算机成熟后被破解。我们必须在这把“钥匙”诞生前,更换掉世界上所有的“数字锁”。 量子计算的黎明,可能是我们数字隐私的黄昏。 9️⃣ 终极问题:谁来为“超级智能”立规矩? 开发一个在所有方面都超越人类的“超级智能AI”,已不再是科幻情节,而是科技巨头和国家正在认真竞赛的目标。专家预测,到2047年实现这一目标的可能性为50% 。 这带来了终极的治理难题:我们如何为一种比我们更聪明的“存在”制定规则?这不仅是技术问题,更是权力和控制权的问题。第一个实现超级智能的国家或公司,可能会获得巨大的战略优势,这使得全球合作监管变得异常困难 。 创造神之前,先想好戒律。 原版: 中文版: 双语版: