AI实时语音专家 leeo xiang 老师,开源新项目BlastOff, 用小模型先回复,然后大模型续上,实现了毫秒级即时响应,LLM 首句延迟可以大幅降低到100ms级别。 Github: 当< 200ms响应,就能感觉像真人对话。在设备端实现高速响应,降低云端延迟!在AI语音应用搞起来!
AI实时语音专家 leeo xiang 老师,开源新项目BlastOff, 用小模型先回复,然后大模型续上,实现了毫秒级即时响应,LLM 首句延迟可以大幅降低到100ms级别。 Github: 当< 200ms响应,就能感觉像真人对话。在设备端实现高速响应,降低云端延迟!在AI语音应用搞起来!
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1天前
阶跃星辰stepfun可以的,这个step3的部署架构把attention和MLP分开,效率更高! LLM的下一个突破是啥?attention+MLP+?