paco xu
0 关注者
汉松
3周前
从零实现 vLLM (1.4):RMSNorm 如何解决训练不稳定: 从零实现 vLLM (1.3):如何加速 Attention 计算: 从零实现 vLLM (1.2):如何实现张量并行: 从零实现 vLLM (1.1):并行词嵌入 VocabParallelEmbedding:
从零实现 vLLM 的第四篇文章,我们将目光转向 Transformer 架构中另一个看似简单、却至关重要的组件:RMSNorm(均方根归一化)。 我们先来看看什么是归一化,假设你刚考完期末考试,三门课的成绩出来了: 数学:120分(满分150) 英语:80分(满分100) 物理:160分(满分200) 哪门课考得最好?如果你直接比较 120、80、160,会得出物理最好的结论。但真实情况是:
Leo Xiang
1个月前
Qwen3 Guard 模型引入了一个一直很期待的能力: 流式输入。 大模型大都支持了流式输出,但支持流式输入的模型还是第一个,如果大模型能支持流式输入,对很多低延迟的场景非常友好。 阿里的伙伴还在计划给vLLM 以及 sglang支持流式输入的能力,非常期待。
Wey Gu 古思为
2个月前
vLLM 社区开了新的项目👍🏻 : Semantic Router,router 不只是 Mixture of Models 的单独 Chat Completion 的 auto model,还有空间做不少别的花活(Prompt guard,PII mask)
3个月前
从零实现 vLLM (1.1):并行词嵌入 VocabParallelEmbedding: