#LightMem

1个月前

[论文解读] LightMem: 轻量高效的记忆增强生成 —— 来自浙大的论文，针对 LLM 在动态交互中记忆不足的问题，提出一种高效的记忆系统，帮助 LLM 像人类一样处理历史信息，同时显著降低计算开销。背景与问题 LLM 在单次任务中表现出色，但面对长上下文或多轮交互时，常因“中间丢失”问题而遗忘早期信息。传统记忆系统通过存储、检索和更新历史数据来缓解，但存在三大痛点： · 冗余信息：原始输入膨胀 token 使用，导致高成本。 · 语义丢失：孤立处理每个回合，忽略上下文连贯性。 · 实时更新延迟：在线维护记忆占用推理时间，影响响应速度。论文受 Atkinson-Shiffrin 人类记忆模型启发（感觉记忆 → 短期记忆 → 长期记忆），设计 LightMem 系统，将记忆分为三个互补阶段，实现高效过滤、组织和巩固。方法概述 LightMem 的架构简洁高效，分为三个模块（Light1–Light3），处理从原始对话到持久存储的全流程： 1. Light1: 认知启发感觉记忆（Sensory Memory）快速过滤无关信息。 · 预压缩子模块：使用 LLMLingua-2 工具（或 LLM）保留关键 token，压缩比 r（0.4–0.8）控制保留率，避免冗余。 · 主题分割子模块：缓冲压缩内容至 512 token 时，结合注意力矩阵（捕捉局部依赖）和语义相似度（阈值 τ）进行混合分割，形成主题组。这步像人类“瞬时感知”，轻量（GPU <2GB，运行时 negligible）。 2. Light2: 主题感知短期记忆（Short-Term Memory）将主题组组织成索引结构 {主题, 消息回合}。 · 当缓冲达阈值 th（e.g., 512–768 token）时，用 LLM 生成摘要，形成条目（Entry）：{主题, 嵌入摘要, 用户/模型消息}。这确保语义连贯，减少 API 调用，同时保留关键上下文。 3. Light3: 睡眠时更新长期记忆（Long-Term Memory）解耦在线推理与离线维护。 · 在线：软插入新条目（带时间戳），计算相似队列（Top-k 历史条目）。 · 离线：并行处理更新队列，避免实时 LLM 不确定性（如错误冲突）。像人类“睡眠巩固”，显著降低延迟。整体流程：输入对话 → 粒度处理（D^{(g)}）→ 摘要（U）→ 更新（M'），但 LightMem 通过分层优化避免传统方法的低效。实验与结果 · 基准：LongMemEval-S 数据集（500 个对话，~11 万 tokens/对话，增量回合输入）。后端模型：GPT-4o-mini 和 Qwen3-30B。基线：FullText（全文本）、NaiveRAG、LangMem、A-MEM 等。指标：准确率（ACC，由 GPT-4o-mini 判断）；效率（token 数、API 调用、运行时）。 LightMem 在准确率上提升 2.7%–9.65%，效率提升显著（token 减少 117 倍，运行时快 12 倍）。最佳配置：GPT (r=0.7, th=512)；Qwen (r=0.6, th=768)。 · 消融实验：压缩率 0.5–0.8 保持 80%+ 准确；混合分割优于单一方法（提升 5.4%–6.3% ACC）。 · 类别分析：在时间序列（Temporal，67.18%）、多会话（Multi-Session，71.74%）和知识更新（Knowledge-Update，83.12%）任务中表现突出。论文地址：开源地址：

#LightMem #LLM记忆增强 #动态交互 #轻量高效 #浙大论文