#首句延迟

2个月前

利用好LLM 的prefix特性，用小模型先回复，然后大模型续上，LLM 首句延迟可以大幅降低到100ms级别。今天vibe coding 的成果之一：

#LLM #prefix特性 #小模型 #大模型 #首句延迟