时政
财经
科技
虚拟货币
其他
登录
#轻量高效
关注
ahhhhfs
4天前
🖨️ 局域网打印神器:PrinterService!让浏览器也能直接打印文件,轻量又高效! ⚙️ 无需安装客户端和驱动!全Web界面操作,让打印更自由 🖱️ 👉 #内网打印 #办公提效
#局域网打印
#PrinterService
#Web界面打印
#办公提效
#轻量高效
分享
评论 0
0
meng shao
1周前
[论文解读] LightMem: 轻量高效的记忆增强生成 —— 来自浙大的论文,针对 LLM 在动态交互中记忆不足的问题,提出一种高效的记忆系统,帮助 LLM 像人类一样处理历史信息,同时显著降低计算开销。 背景与问题 LLM 在单次任务中表现出色,但面对长上下文或多轮交互时,常因“中间丢失”问题而遗忘早期信息。传统记忆系统通过存储、检索和更新历史数据来缓解,但存在三大痛点: · 冗余信息:原始输入膨胀 token 使用,导致高成本。 · 语义丢失:孤立处理每个回合,忽略上下文连贯性。 · 实时更新延迟:在线维护记忆占用推理时间,影响响应速度。 论文受 Atkinson-Shiffrin 人类记忆模型启发(感觉记忆 → 短期记忆 → 长期记忆),设计 LightMem 系统,将记忆分为三个互补阶段,实现高效过滤、组织和巩固。 方法概述 LightMem 的架构简洁高效,分为三个模块(Light1–Light3),处理从原始对话到持久存储的全流程: 1. Light1: 认知启发感觉记忆(Sensory Memory) 快速过滤无关信息。 · 预压缩子模块:使用 LLMLingua-2 工具(或 LLM)保留关键 token,压缩比 r(0.4–0.8)控制保留率,避免冗余。 · 主题分割子模块:缓冲压缩内容至 512 token 时,结合注意力矩阵(捕捉局部依赖)和语义相似度(阈值 τ)进行混合分割,形成主题组。 这步像人类“瞬时感知”,轻量(GPU <2GB,运行时 negligible)。 2. Light2: 主题感知短期记忆(Short-Term Memory) 将主题组组织成索引结构 {主题, 消息回合}。 · 当缓冲达阈值 th(e.g., 512–768 token)时,用 LLM 生成摘要,形成条目(Entry):{主题, 嵌入摘要, 用户/模型消息}。 这确保语义连贯,减少 API 调用,同时保留关键上下文。 3. Light3: 睡眠时更新长期记忆(Long-Term Memory) 解耦在线推理与离线维护。 · 在线:软插入新条目(带时间戳),计算相似队列(Top-k 历史条目)。 · 离线:并行处理更新队列,避免实时 LLM 不确定性(如错误冲突)。 像人类“睡眠巩固”,显著降低延迟。 整体流程:输入对话 → 粒度处理(D^{(g)})→ 摘要(U)→ 更新(M'),但 LightMem 通过分层优化避免传统方法的低效。 实验与结果 · 基准:LongMemEval-S 数据集(500 个对话,~11 万 tokens/对话,增量回合输入)。后端模型:GPT-4o-mini 和 Qwen3-30B。 基线:FullText(全文本)、NaiveRAG、LangMem、A-MEM 等。 指标:准确率(ACC,由 GPT-4o-mini 判断);效率(token 数、API 调用、运行时)。 LightMem 在准确率上提升 2.7%–9.65%,效率提升显著(token 减少 117 倍,运行时快 12 倍)。最佳配置:GPT (r=0.7, th=512);Qwen (r=0.6, th=768)。 · 消融实验:压缩率 0.5–0.8 保持 80%+ 准确;混合分割优于单一方法(提升 5.4%–6.3% ACC)。 · 类别分析:在时间序列(Temporal,67.18%)、多会话(Multi-Session,71.74%)和知识更新(Knowledge-Update,83.12%)任务中表现突出。 论文地址: 开源地址:
#LightMem
#LLM记忆增强
#动态交互
#轻量高效
#浙大论文
分享
评论 0
0
sitin
1个月前
EmbeddingGemma 旨在解决当前大多数嵌入模型依赖云端运行所带来的数据隐私、网络依赖和高资源占用问题。它是一个专为在本地和设备端(如手机、笔记本)高效运行而设计的开源嵌入模型。 核心特性 轻量高效:模型经过量化后,运行内存占用低于200MB,使其能够在移动设备和PC上顺畅地离线运行。 高性能:尽管体积小,但其在多项基准测试中的表现媲美甚至优于更大的同类模型。 可变输出维度:支持 Matryoshka 表示学习,可灵活输出从768维到128维的向量,允许在精度和效率之间进行权衡。 快速推理:在边缘计算硬件(如EdgeTPU)上可实现极快的推理速度(<15ms,处理256个token时)。 多语言支持:在包含100多种语言的语料上训练,在多语言语义理解任务上表现出色。 主要应用场景 离线检索增强生成 (RAG):构建完全离线的问答系统和聊天机器人。 离线语义搜索:在没有网络的情况下,快速精准地搜索本地文件、邮件、笔记等内容。 文本分类与聚类:用于任务自动分类和用户意图识别等。 隐私敏感应用:所有数据处理均在本地完成,有效保护用户数据隐私。 工具与生态集成 模型与主流开发工具链高度兼容,包括: sentence-transformers, transformers, llama.cpp, MLX, Ollama 等推理库。 LangChain, LlamaIndex 等应用框架。 Weaviate, Cloudflare 等向量数据库和部署平台。 模型权重可在 Hugging Face、Kaggle 和 Google Vertex AI 平台获取。 EmbeddingGemma 的核心价值在于提供了一个不牺牲性能的隐私优先解决方案,让开发者能够构建完全离线、高效且强大的AI应用(如搜索和问答),打破了此类应用对云端的依赖。
#EmbeddingGemma
#离线AI应用
#隐私保护
#本地运行
#轻量高效
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞