#神经网络

汉松
3周前
从零实现 vLLM 的第四篇文章,我们将目光转向 Transformer 架构中另一个看似简单、却至关重要的组件:RMSNorm(均方根归一化)。 我们先来看看什么是归一化,假设你刚考完期末考试,三门课的成绩出来了: 数学:120分(满分150) 英语:80分(满分100) 物理:160分(满分200) 哪门课考得最好?如果你直接比较 120、80、160,会得出物理最好的结论。但真实情况是:三门课其实考得一样好。 数学:120/150 = 80% 英语:80/100 = 80% 物理:160/200 = 80% 这就是归一化的核心思想:把不同量纲、不同范围的数据转换到统一的标准下进行比较。 为什么神经网络需要归一化? 想象一下,你在玩传话游戏。第一个人说"我喜欢苹果",传到第十个人那里变成了"我喜欢菠萝"。这就是深度神经网络面临的问题。 每一层网络都会对输入做一些计算,然后把结果传给下一层。问题是,随着层数增加,这些数值会变得越来越不可控——要么爆炸式增长,要么消失得无影无踪。就像传话游戏一样,信息在传递过程中逐渐失真。 在模型中加入归一化层,能够降低梯度爆炸或者消失的概率,模型的训练过程变得更加稳定。归一化技术从一开始的 BatchNorm 先演进到 LayerNorm,最后进化到了 RMSNorm,成为大模型的标配。 我的文章会带大家走进归一化技术的演进史,感兴趣的可以查看原文。
orange.ai
1个月前
我今天花了一小时读了一篇文章《语言:生于智能并终将成为智能》 核心观点是:压缩就是智能。 生命对抗熵增需要最大化能量效率。大脑是一台高效的压缩机器——能耗20瓦,但算力惊人。智商越高,计算能耗越低。 人类为了传递经验发明了语言,语言本质上就是对现实的压缩。 到了AI时代,关系反过来了: 以前是:现实 → 人类智能 → 语言(传递工具) 现在是:语言 → AI → 现实 语言不再只是传递工具,而成了智能本身的原材料。 文章认为,人类语言数据已经被压缩到极限,这就是数据飞轮失效的原因。AI需要发展自己的语言(AILang)才能继续进化。 读完和 Claude Code 讨论了很久,有几个洞察: 1. 人类语言的"低效"其实是双刃剑 模糊性、隐喻、多义性在人类社会是特性,在AI训练中是bug。同样的特质,在不同系统里价值完全相反。 2. 应用公司正在无意识地为AI进化铺路 你做应用是为了用户价值,但客观上积累了独特数据和环境。未来有能力训练模型的公司,这些就是护城河。这不是"应该",而是"正在发生"。 3. AILang已经存在了 神经网络的表征空间、多模态模型的中间层,已经是一种人类看不懂的"语言"。不是要发明,而是正在涌现。 4. 智能≠人 文章说的是智能维度的压缩逻辑,但人还有情感、意义、价值。这些不是被压缩,而是会被舍弃。区分这两个层面很重要。
宝玉
5个月前
机器人现在能代替人工分拣包裹了,而且进化速度很快,视频是Figures CEO的访谈: 今天我们发布了一段视频,展示了一台机器人在物流场景中的应用。这台机器人完全靠一个端到端的神经网络控制,它只需输入摄像头捕获的画面,就能直接输出相应的操作动作。现在,这套系统已经接近人类的操作速度和准确率。放眼全球,你还能找到谁在做类似的事吗? 在这段视频中,机器人正在进行包裹分类任务,它能区分硬质的纸盒包装和塑料包装包裹,并试图将塑料包装表面弄平整,使条形码能够清晰呈现。这套系统目前正运行在你们自己的物流设施中,对吗? 这里面的挑战是:处理物流中的小型包裹尤其困难。因为每个包裹都是不一样的,每次堆叠在一起的包裹情况也完全不同,这给机器人带来了巨大的挑战。这种场景是没办法通过传统的编码方式解决的。 更有趣的是,这与我们之前发布的视频——关于冲压机作业的视频,形成了鲜明的对比。冲压机面对的是高密度金属,精度要求非常高,速度必须极快,容错率极低,因为生产线停不起;而物流机器人处理的包裹却截然不同,它们需要的是另一种能力:神经网络的泛化能力,以适应每次不同的包裹状况,达到接近人类的作业速度(每个包裹约需3至4秒),同时能找到条形码,将包裹正确翻转,并在很多情况下把塑料包装弄平,确保传送带后续的扫描仪能准确读取信息。 这两种作业的需求差别之大几乎是正交的(orthogonal):一个强调精准度和高速度,另一个则强调泛化和柔性控制。这也让人清晰地看到现代AI智能体在不同场景中的灵活性和潜力。