terrific 0 关注者 关注 1周前 用本地 LLM 时遇到 Anthropic 最近在 Claude Code 上的小动作,导致 KV Cache 失效。生成速度因此可能下降约九成。 典型「跨层副作用」 - 工具层在提示词前 prepend 一段文本(看似无害) - 推理层的 KV Cache 对 token 序列严格敏感 本地推理服务基于 prompt 前缀复用共享 KV 缓存的机制完全失效。 前往原网页查看