2个月前

来看这个神奇的项目——LMCache LMCache是一个面向大语言模型服务优化的高性能缓存系统,可以近似理解为给大模型加了个 Redis, 他通过 KV 缓存复用技术来降低首Token延迟(TTFT)和提升吞吐量。尤其是长上下文的场景优化效果非常不错。 特性如下: - 支持跨GPU/CPU/本地磁盘的多级缓存存储 - 可复用任意位置的重复文本KV缓存(不限于前缀匹配) - 实现跨服务实例的缓