3周前

来看这个神奇的项目——LMCache LMCache是一个面向大语言模型服务优化的高性能缓存系统,可以近似理解为给大模型加了个 Redis, 他通过 KV 缓存复用技术来降低首Token延迟(TTFT)和提升吞吐量。尤其是长上下文的场景优化效果非常不错。 特性如下: - 支持跨GPU/CPU/本地磁盘的多级缓存存储 - 可复用任意位置的重复文本KV缓存(不限于前缀匹配) - 实现跨服务实例的缓存共享 - 与vLLM推理引擎深度集成 - 典型场景下实现3-10倍的延迟降低 - 显著减少GPU计算资源消耗 - 支持多轮对话和RAG(检索增强生成)场景 地址: