Barret李靖

Barret李靖

0 关注者

6天前

在跟大模型对话的过程中,缓存经常是一个被忽略的对象,尤其是在大文档、多轮对话和长时间连续追问这些重上下文场景下。 以 Claude 的 5min prompt cache 为例,从缓存中读取 token 的价格只有不缓存的十分之一。假设你在针对一本 10 万字左右的书籍做问答,围绕同一份内容连续交互 50 轮: 不使用缓存时,每一轮都要把这 10 万字完整送进模型,总成本是 50 × S;使用

热门新闻