0 关注者

1个月前

在跟大模型对话的过程中，缓存经常是一个被忽略的对象，尤其是在大文档、多轮对话和长时间连续追问这些重上下文场景下。以 Claude 的 5min prompt cache 为例，从缓存中读取 token 的价格只有不缓存的十分之一。假设你在针对一本 10 万字左右的书籍做问答，围绕同一份内容连续交互 50 轮：不使用缓存时，每一轮都要把这 10 万字完整送进模型，总成本是 50 × S；使用

热门新闻