#LightMem

[论文解读] LightMem: 轻量高效的记忆增强生成 —— 来自浙大的论文,针对 LLM 在动态交互中记忆不足的问题,提出一种高效的记忆系统,帮助 LLM 像人类一样处理历史信息,同时显著降低计算开销。 背景与问题 LLM 在单次任务中表现出色,但面对长上下文或多轮交互时,常因“中间丢失”问题而遗忘早期信息。传统记忆系统通过存储、检索和更新历史数据来缓解,但存在三大痛点: · 冗余信息:原始输入膨胀 token 使用,导致高成本。 · 语义丢失:孤立处理每个回合,忽略上下文连贯性。 · 实时更新延迟:在线维护记忆占用推理时间,影响响应速度。 论文受 Atkinson-Shiffrin 人类记忆模型启发(感觉记忆 → 短期记忆 → 长期记忆),设计 LightMem 系统,将记忆分为三个互补阶段,实现高效过滤、组织和巩固。 方法概述 LightMem 的架构简洁高效,分为三个模块(Light1–Light3),处理从原始对话到持久存储的全流程: 1. Light1: 认知启发感觉记忆(Sensory Memory) 快速过滤无关信息。 · 预压缩子模块:使用 LLMLingua-2 工具(或 LLM)保留关键 token,压缩比 r(0.4–0.8)控制保留率,避免冗余。 · 主题分割子模块:缓冲压缩内容至 512 token 时,结合注意力矩阵(捕捉局部依赖)和语义相似度(阈值 τ)进行混合分割,形成主题组。 这步像人类“瞬时感知”,轻量(GPU <2GB,运行时 negligible)。 2. Light2: 主题感知短期记忆(Short-Term Memory) 将主题组组织成索引结构 {主题, 消息回合}。 · 当缓冲达阈值 th(e.g., 512–768 token)时,用 LLM 生成摘要,形成条目(Entry):{主题, 嵌入摘要, 用户/模型消息}。 这确保语义连贯,减少 API 调用,同时保留关键上下文。 3. Light3: 睡眠时更新长期记忆(Long-Term Memory) 解耦在线推理与离线维护。 · 在线:软插入新条目(带时间戳),计算相似队列(Top-k 历史条目)。 · 离线:并行处理更新队列,避免实时 LLM 不确定性(如错误冲突)。 像人类“睡眠巩固”,显著降低延迟。 整体流程:输入对话 → 粒度处理(D^{(g)})→ 摘要(U)→ 更新(M'),但 LightMem 通过分层优化避免传统方法的低效。 实验与结果 · 基准:LongMemEval-S 数据集(500 个对话,~11 万 tokens/对话,增量回合输入)。后端模型:GPT-4o-mini 和 Qwen3-30B。 基线:FullText(全文本)、NaiveRAG、LangMem、A-MEM 等。 指标:准确率(ACC,由 GPT-4o-mini 判断);效率(token 数、API 调用、运行时)。 LightMem 在准确率上提升 2.7%–9.65%,效率提升显著(token 减少 117 倍,运行时快 12 倍)。最佳配置:GPT (r=0.7, th=512);Qwen (r=0.6, th=768)。 · 消融实验:压缩率 0.5–0.8 保持 80%+ 准确;混合分割优于单一方法(提升 5.4%–6.3% ACC)。 · 类别分析:在时间序列(Temporal,67.18%)、多会话(Multi-Session,71.74%)和知识更新(Knowledge-Update,83.12%)任务中表现突出。 论文地址: 开源地址: