汉松

汉松

0 关注者

3天前

从零实现 vLLM 的第四篇文章,我们将目光转向 Transformer 架构中另一个看似简单、却至关重要的组件:RMSNorm(均方根归一化)。 我们先来看看什么是归一化,假设你刚考完期末考试,三门课的成绩出来了: 数学:120分(满分150) 英语:80分(满分100) 物理:160分(满分200) 哪门课考得最好?如果你直接比较 120、80、160,会得出物理最好的结论。但真实情况是:

相关新闻