Leo Xiang

Leo Xiang

0 关注者

1周前

Qwen3 Guard 模型引入了一个一直很期待的能力: 流式输入。 大模型大都支持了流式输出,但支持流式输入的模型还是第一个,如果大模型能支持流式输入,对很多低延迟的场景非常友好。 阿里的伙伴还在计划给vLLM 以及 sglang支持流式输入的能力,非常期待。