汉松

汉松

0 关注者

3天前

从零实现 vLLM (1.4):RMSNorm 如何解决训练不稳定: 从零实现 vLLM (1.3):如何加速 Attention 计算: 从零实现 vLLM (1.2):如何实现张量并行: 从零实现 vLLM (1.1):并行词嵌入 VocabParallelEmbedding:

#vLLM #RMSNorm #Attention计算 #张量并行 #VocabParallelEmbedding

相关新闻

placeholder

汉松

3天前

从零实现 vLLM 的第四篇文章,我们将目光转向 Transformer 架构中另一个看似简单、却至关重要的组件:RMSNorm(均方根归一化)。 我们先来看看什么是归一化,假设你刚考完期末考试,三门课的成绩出来了: 数学:120分(满分150) 英语:80分(满分100) 物理:160分(满分200) 哪门课考得最好?如果你直接比较 120、80、160,会得出物理最好的结论。但真实情况是:

placeholder

Leo Xiang

2周前

Qwen3 Guard 模型引入了一个一直很期待的能力: 流式输入。 大模型大都支持了流式输出,但支持流式输入的模型还是第一个,如果大模型能支持流式输入,对很多低延迟的场景非常友好。 阿里的伙伴还在计划给vLLM 以及 sglang支持流式输入的能力,非常期待。

placeholder

paco xu

4周前

vllm meetup 上海 10-25 议程已公布,报名已开启。

placeholder

Wey Gu 古思为

1个月前

vLLM 社区开了新的项目👍🏻 : Semantic Router,router 不只是 Mixture of Models 的单独 Chat Completion 的 auto model,还有空间做不少别的花活(Prompt guard,PII mask)

placeholder

汉松

3个月前

从零实现 vLLM (1.1):并行词嵌入 VocabParallelEmbedding:

© 2025 news.news. All rights reserved. 0.0466 秒. v1.0.46
我的评论