说一个在前司的观察：搞应用的，天天手动拼 prompt、管理上下文，去提高prompt cache 命中率，都快卷的没招了，实际就是在模拟“状态”。这全赖底层的推理 API 还是最原始的 stateless 形态。所以我有一个强烈的预感：下个能掀起波澜的 AI 产品，会是一个深度结合推理和应用层的怪物，把状态管理、KV Cache 复用做到极致，当别人还在为优化 10% 的 prompt 成本

#AI产品 #推理API #状态管理 #kv cache #降维打击

相关新闻

ariel reyez romero

5天前

google今天这篇2025年4月的论文居然引发了存储的下跌，那我们就再重读一下： KV cache 一直是大模型推理里的最大内存消耗来源。论文的做法，本质是用信息论最优的方式去压缩这些数据。不是简单地降低精度，而是重新分配信息密度。普通部分用极低比特表示，异常值单独保留更高精度。同时不再逐元素处理，而是以向量为单位编码，因为 attention 本身就是内积结构。关键的是，它的误差已经贴近

Nathan 🧸

1周前

未来给人用的AI产品价值更大？还是给Agent调用的产品价值更大？给人用的AI产品，人来判断价格；给agent用的AI产品，agent来判断价格人来判断价格，就不只是效率的事，GUI、势能，都会影响人的选择。agent来判断价格，就是纯效率推导，会出现围绕agent的AEO

德潤傳媒

1周前

江峰视界 🍇1.3亿买下「起事军饷」，江浙财阀公然倒戈！反习派夺刀血洗重庆大本营； 🍇美国掀桌降维打击，119美元油价吓傻中南海，纸老虎彻底现原形！

Andy Stewart

1周前

这两天一直在开发小龙虾我觉得几个地方设计的特别好 1. 情商体系设计的非常好，它是那种会激励你和它聊天的AI，积极但不烦人 2. Skill和Tool设计的很好，就说中文就可以精确控制一下方向 3. Memory体系让它有短期和长期记忆，越聊越开心，越聊越懂你这种AI产品设计的很有温度

李老师不是你老师

2周前

近日，中国最大的网络安全公司之一奇虎360 发布了新AI产品 “360安全龙虾（Security Claw）” 。但有技术人员发现，安装包中，竟然包含了其服务器域名 *.myclaw.360.cn 的 SSL私钥。 SSL私钥相当于网站加密通信的“主密码”。一旦泄露，攻击者理论上可以伪装成360服务器，拦截用户数据、伪造登录页面，甚至劫持AI服务。这个私钥就直接存在于安装包中，任何下载软件