yan5xu 0 关注者 关注 1个月前 说一个在前司的观察:搞应用的,天天手动拼 prompt、管理上下文,去提高prompt cache 命中率,都快卷的没招了,实际就是在模拟“状态”。这全赖底层的推理 API 还是最原始的 stateless 形态。 所以我有一个强烈的预感: 下个能掀起波澜的 AI 产品,会是一个深度结合推理和应用层的怪物,把状态管理、KV Cache 复用做到极致,当别人还在为优化 10% 的 prompt 成本 #AI产品 #推理API #状态管理 #kv cache #降维打击 前往原网页查看