Attention Layer 中的残差- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

Attention Layer 中的残差连接与 LayerNorm 当今的大模型往往是超深神经网络，层数轻松超过百层。要理解如此庞大的结构带来的挑战，可以用一个不完全严谨但形象的比喻：就像“传话游戏”一样，如果让一条信息依次传递给 20 个人，很可能最后听到的版本早已面目全非。同样的，在深度网络中，如果没有设计良好的信息通路，原始语义在层层变换中也极易被扭曲、遗失。在 2015 年之前，神经网络的深度普遍停留在 20 到 30 层之间。随着层数的加深，模型表现反而下降，这被称为“退化现象”。其根本原因包括梯度消失、特征偏移和表示不稳定等训练问题。正是在这种背景下，一篇划时代的论文应运而生——《Deep Residual Learning for Image Recognition》。这项由微软研究院的何恺明（Kaiming He）、张祥雨（Xiangyu Zhang）、任少卿（Shaoqing Ren）和孙剑（Jian Sun）等人提出的研究，首次提出了“残差连接”（Residual Connection）机制，从根本上解决了深层网络难以训练的问题。这项创新的直接成果就是 ResNet 系列模型（如 ResNet-50、ResNet-101、ResNet-152），它们在 ImageNet 图像识别任务中取得了突破性成绩，使得“百层网络”从概念走向现实。更重要的是，这种结构范式迅速影响了整个深度学习领域，成为后续许多关键模型的结构基础，包括 Transformer 的多层堆叠编码器-解码器架构，以及基于它演化出的 BERT、GPT 等大型语言模型，乃至视觉领域的 Vision Transformer（ViT）。残差连接的核心思想很简单：不是让每一层都重新构造全部表达，而是在前一层的基础上进行“增量式”改进，即 y = x + F(x)。这种结构允许信息贯通整个网络，不被中间层彻底覆盖或干扰。而在 Transformer 中，这一结构通常与 LayerNorm（层归一化）结合使用，形成经典的 “Add & Norm” 模式。这种设计不仅保证了信息的连续性，也通过归一化机制维持了每一层的稳定分布，使得深度语言模型得以安全地堆叠数十至上百层。从这个角度来看，残差连接与 LayerNorm 的搭配，不仅仅是一种技术细节，而是支撑整个现代 AI 模型深度化的基础设施。正是这项创新，让深度学习从“浅层表达”真正走向了“结构认知”，从“性能探索”进入了“工业落地”的新阶段。残差连接（Residual Connection）。我对它的总结是这样的： “在层层递进的过程中，不让一层完全推翻上一层。” 就像“传话游戏”，你不能在传话的过程中擅自篡改上一位所说的内容，只能在其基础上尽量讲得更清楚、更准确。深度网络中的每一层信息处理，其实也面临类似的挑战——如果没有良好的机制约束，信息在多层变换中很容易被扭曲，导致语义丢失。残差连接的核心作用，就是一种信息保护机制。如果没有它，每一层都必须从零开始重新构建表达，既容易丢失已有语义结构（比如词义、句法、语境），又让每一层都背负“完整表达”的沉重负担。而引入残差连接后，每一层的任务就轻松多了，它只需要在前一层的基础上做一些“小修小补”，相当于打个“补丁”，而不是从头重写整段逻辑。就像写论文时，你不会每次重写全部内容，而是基于已有版本不断微调、精炼。我们可以通过一个简单的例子来直观理解残差计算。设一个三维输入向量： x = [1.0, 2.0, 3.0] 我们设计一个残差函数 F(x)，例如通过线性变换 + 偏置 + ReLU 非线性激活构建： W = [ [0.5, 0.0, 0.0], [0.0, 0.5, 0.0], [0.0, 0.0, 0.5] ] b = [0.1, -0.1, 0.2] 计算过程如下： Wx + b = [0.6, 0.9, 1.7] F(x) = ReLU([0.6, 0.9, 1.7]) = [0.6, 0.9, 1.7] 最终通过残差相加得到： x + F(x) = [1.6, 2.9, 4.7] 这一步最重要的理念是：原始输入 x没有被丢掉，而是与新计算的增量 F(x) 结合在一起，作为下一层的输入。这不仅保留了前面层的结构，还允许网络在已有表达基础上逐步增强，避免信息被误处理或彻底重写。你可能会说：这不就是简单的数值相加吗？是的，数学上很简单，但背后的思想却深刻。为了让这样的加法不会导致数值不稳定或分布偏移，Transformer 中在残差相加后会紧跟一个 LayerNorm 操作。你可以把它类比为“归一化”，就像学过概率统计的人熟悉的 normalization 过程：将输出重新压缩到一个合理的分布范围内，保持数值稳定，利于训练。所以，残差连接 + LayerNorm，就是深度网络中“传话不走样”的保障机制——既保留原意，又允许优化；既递进增强，又不过度扰动。这一结构几乎是所有现代深层模型（包括 GPT、BERT、ViT 等）的基础之一。 (9/n)

热门新闻