从零实现 vLLM (1.4）：RMSNorm 如何解决训练不稳定：从零实现 vLLM (1.3）：如何加速 Attention 计算：从零实现 vLLM (1.2）：如何实现张量并行：从零实现 vLLM (1.1）：并行词嵌入 VocabParallelEmbedding：

#vLLM #RMSNorm #Attention计算 #张量并行 #VocabParallelEmbedding

相关新闻

AIGCLINK

2个月前

折腾了几个礼拜，昨晚总算看到起量正常不报错了，起量才知道vllm有很多坑要踩，今天600w TPM走起，距离打满还差99% #vllm

汉松

3个月前

从零实现 vLLM 的第四篇文章，我们将目光转向 Transformer 架构中另一个看似简单、却至关重要的组件：RMSNorm（均方根归一化）。我们先来看看什么是归一化，假设你刚考完期末考试，三门课的成绩出来了：数学：120分（满分150）英语：80分（满分100）物理：160分（满分200）哪门课考得最好？如果你直接比较 120、80、160，会得出物理最好的结论。但真实情况是：

Leo Xiang

4个月前

Qwen3 Guard 模型引入了一个一直很期待的能力：流式输入。大模型大都支持了流式输出，但支持流式输入的模型还是第一个，如果大模型能支持流式输入，对很多低延迟的场景非常友好。阿里的伙伴还在计划给vLLM 以及 sglang支持流式输入的能力，非常期待。

paco xu

4个月前

vllm meetup 上海 10-25 议程已公布，报名已开启。

Wey Gu 古思为

5个月前

vLLM 社区开了新的项目👍🏻 ： Semantic Router，router 不只是 Mixture of Models 的单独 Chat Completion 的 auto model，还有空间做不少别的花活（Prompt guard，PII mask）

从零实现 vLLM (1.4）：RMSNorm 如何解决训练不稳定： 从零实现 vLLM (1.3）：如何加速 Attention 计算： 从零实现 vLLM (1.2）：如何实现张量并行： 从零实现 vLLM (1.1）：并行词嵌入 VocabParallelEmbedding：

相关新闻

从零实现 vLLM (1.4）：RMSNorm 如何解决训练不稳定：从零实现 vLLM (1.3）：如何加速 Attention 计算：从零实现 vLLM (1.2）：如何实现张量并行：从零实现 vLLM (1.1）：并行词嵌入 VocabParallelEmbedding：