Leo Xiang 0 关注者 关注 1周前 Qwen3 Guard 模型引入了一个一直很期待的能力: 流式输入。 大模型大都支持了流式输出,但支持流式输入的模型还是第一个,如果大模型能支持流式输入,对很多低延迟的场景非常友好。 阿里的伙伴还在计划给vLLM 以及 sglang支持流式输入的能力,非常期待。 #Qwen3 #Guard模型 #流式输入 #低延迟 #vLLM 前往原网页查看