Susan STEM

Susan STEM

0 关注者

2周前

Attention Layer 中的残差连接与 LayerNorm 当今的大模型往往是超深神经网络,层数轻松超过百层。要理解如此庞大的结构带来的挑战,可以用一个不完全严谨但形象的比喻:就像“传话游戏”一样,如果让一条信息依次传递给 20 个人,很可能最后听到的版本早已面目全非。同样的,在深度网络中,如果没有设计良好的信息通路,原始语义在层层变换中也极易被扭曲、遗失。 在 2015 年之前,神经网络的深度普遍停留在 20 到 30 层之间。随着层数的加深,模型表现反而下降,这被称为“退化现象”。其根本原因包括梯度消失、特征偏移和表示不稳定等训练问题。正是在这种背景下,一篇划时代的论文应运而生——《Deep Residual Learning for Image Recognition》。这项由微软研究院的何恺明(Kaiming He)、张祥雨(Xiangyu Zhang)、任少卿(Shaoqing Ren)和孙剑(Jian Sun)等人提出的研究,首次提出了“残差连接”(Residual Connection)机制,从根本上解决了深层网络难以训练的问题。 这项创新的直接成果就是 ResNet 系列模型(如 ResNet-50、ResNet-101、ResNet-152),它们在 ImageNet 图像识别任务中取得了突破性成绩,使得“百层网络”从概念走向现实。更重要的是,这种结构范式迅速影响了整个深度学习领域,成为后续许多关键模型的结构基础,包括 Transformer 的多层堆叠编码器-解码器架构,以及基于它演化出的 BERT、GPT 等大型语言模型,乃至视觉领域的 Vision Transformer(ViT)。 残差连接的核心思想很简单:不是让每一层都重新构造全部表达,而是在前一层的基础上进行“增量式”改进,即 y = x + F(x)。这种结构允许信息贯通整个网络,不被中间层彻底覆盖或干扰。而在 Transformer 中,这一结构通常与 LayerNorm(层归一化)结合使用,形成经典的 “Add & Norm” 模式。这种设计不仅保证了信息的连续性,也通过归一化机制维持了每一层的稳定分布,使得深度语言模型得以安全地堆叠数十至上百层。 从这个角度来看,残差连接与 LayerNorm 的搭配,不仅仅是一种技术细节,而是支撑整个现代 AI 模型深度化的基础设施。正是这项创新,让深度学习从“浅层表达”真正走向了“结构认知”,从“性能探索”进入了“工业落地”的新阶段。 残差连接(Residual Connection)。我对它的总结是这样的: “在层层递进的过程中,不让一层完全推翻上一层。” 就像“传话游戏”,你不能在传话的过程中擅自篡改上一位所说的内容,只能在其基础上尽量讲得更清楚、更准确。深度网络中的每一层信息处理,其实也面临类似的挑战——如果没有良好的机制约束,信息在多层变换中很容易被扭曲,导致语义丢失。 残差连接的核心作用,就是一种信息保护机制。如果没有它,每一层都必须从零开始重新构建表达,既容易丢失已有语义结构(比如词义、句法、语境),又让每一层都背负“完整表达”的沉重负担。而引入残差连接后,每一层的任务就轻松多了,它只需要在前一层的基础上做一些“小修小补”,相当于打个“补丁”,而不是从头重写整段逻辑。就像写论文时,你不会每次重写全部内容,而是基于已有版本不断微调、精炼。 我们可以通过一个简单的例子来直观理解残差计算。设一个三维输入向量: x = [1.0, 2.0, 3.0] 我们设计一个残差函数 F(x),例如通过线性变换 + 偏置 + ReLU 非线性激活构建: W = [ [0.5, 0.0, 0.0], [0.0, 0.5, 0.0], [0.0, 0.0, 0.5] ] b = [0.1, -0.1, 0.2] 计算过程如下: Wx + b = [0.6, 0.9, 1.7] F(x) = ReLU([0.6, 0.9, 1.7]) = [0.6, 0.9, 1.7] 最终通过残差相加得到: x + F(x) = [1.6, 2.9, 4.7] 这一步最重要的理念是:原始输入 x没有被丢掉,而是与新计算的增量 F(x) 结合在一起,作为下一层的输入。这不仅保留了前面层的结构,还允许网络在已有表达基础上逐步增强,避免信息被误处理或彻底重写。 你可能会说:这不就是简单的数值相加吗?是的,数学上很简单,但背后的思想却深刻。为了让这样的加法不会导致数值不稳定或分布偏移,Transformer 中在残差相加后会紧跟一个 LayerNorm 操作。你可以把它类比为“归一化”,就像学过概率统计的人熟悉的 normalization 过程:将输出重新压缩到一个合理的分布范围内,保持数值稳定,利于训练。 所以,残差连接 + LayerNorm,就是深度网络中“传话不走样”的保障机制——既保留原意,又允许优化;既递进增强,又不过度扰动。这一结构几乎是所有现代深层模型(包括 GPT、BERT、ViT 等)的基础之一。 (9/n)