Leo Xiang 0 关注者 关注 4个月前 利用好LLM 的prefix特性,用小模型先回复,然后大模型续上,LLM 首句延迟可以大幅降低到100ms级别。 今天vibe coding 的成果之一: #LLM #prefix特性 #小模型 #大模型 #首句延迟 前往原网页查看