#神经网络架构

夜谈
4天前
最新论文:一种AI自主设计并发现顶尖神经网络架构方法, 我们离完全不依靠人的ai自我提升又进一步! 这将彻底颠覆传统AI研究模式,让AI架构创新不再受限于人类智慧,而是能随计算力无限扩展! 论文解读: 这篇上海交大团队发表的论文提出了一种名为 ASI-Arch 的人工超智能系统,旨在自动发现新的神经网络架构。该系统模拟了科学研究的整个流程,从提出假设到实验验证,并且能够在不需要人类干预的情况下进行创新。 以下是论文的详细解读: 1. 论文核心思想与背景 当前AI研究的瓶颈:尽管AI系统本身的能力呈指数级增长,但AI研究的进展速度却受到人类认知能力的线性限制,这成为了AI发展的一个日益严重的瓶颈。 ASI4AI的愿景:为了解决这个瓶颈,论文提出了“用于AI研究的人工超智能(ASI4AI)”的愿景,即AI系统能够自主进行科学研究,并设计出更强大的下一代模型。 神经网络架构发现的重要性:模型架构是AI技术栈的基石,每一次AI能力上的重大飞跃都伴随着架构上的突破(例如从CNNs到Transformers) 6。因此,神经网络架构发现是实现ASI4AI最具有挑战性和影响力的前沿领域 7。 超越传统NAS:传统的神经架构搜索(NAS)方法仅限于探索人类定义的空间,而 ASI-Arch 则实现了从“自动化优化”到“自动化创新”的范式转变 8888。它能够自主地提出新颖的架构概念,将其实现为可执行代码,并通过严谨的实验和人类及AI的过往经验进行实证验证 9。 2. ASI-Arch 系统架构与工作流程 ASI-Arch 是一个多智能体系统,采用闭环演化过程,包括三个核心模块: 研究员 (Researcher):负责根据历史数据提出新的架构设计动机和概念。 种子选择 (Seed Selection):从包含前50个最佳架构的候选池中选择父架构和参考架构,以平衡继承成功经验和探索新方向。 模型设计 (Model Design):动态地生成历史架构的简要总结,避免提供静态、重复的上下文,从而鼓励更多样化的设计探索。 程序实现 (Program Implementation):由同一个智能体同时进行架构设计和代码实现,以避免信息缺失和实现偏差。 新颖性和健全性检查 (Novelty and Sanity Check):在训练前进行两阶段验证,包括相似性检查(防止冗余)和代码层面的健全性检查(防止基本实现缺陷,如复杂度超过 O(n2) 和掩码泄漏)。如果检查失败,会向智能体返回反馈,提示其重写。 工程师 (Engineer):负责在真实代码环境中训练和评估提出的架构。 真实代码环境 (Real Code Environment):在一个交互式编码环境中进行定量评估。系统具有强大的自我修正机制,当训练失败时,会自动捕获错误日志并返回给智能体,由智能体分析并修改代码,直到训练成功。 LLM 作为评判者 (LLM-as-Judge Scoring):在定量评估之后,引入基于 LLM 的评分模块进行定性评估,考虑架构的创新性、复杂性。 分析师 (Analyst):负责综合实验结果,提取新的洞察力,并将其存储在中央数据库中,作为系统下一次演化的基础。 认知库 (Cognition Base):从现有领域知识(例如,从线性注意力领域近100篇重要论文中提取的结构化认知条目)中获取洞察力,以指导后续设计。 上下文分析 (Contextual Analysis):生成自己的洞察力,提供当前实验的完整信息,包括所有性能指标、训练日志以及父节点和兄弟节点的性能,从而推断单个模块的具体贡献。 适应性改进策略:为了确保系统逐步生成更优的设计,ASI-Arch 实现了进化改进策略,通过综合适应度得分(全面评估每个新架构,提供明确的优化目标)和利用人类专家文献的提炼知识以及自身过往实验的分析总结来指导后续设计。 两阶段探索-验证策略:为了平衡资源消耗和效率,系统采用两阶段策略: * 探索阶段 (Exploration Stage):在小规模模型上进行广泛探索,以高效识别大量有希望的候选模型 。 * 验证阶段 (Verification Stage):将有前景的候选模型扩展到更大的模型进行严格验证,确认其最先进的性能。 3. 主要实验结果 SOTA架构发现:ASI-Arch 在20,000 GPU小时内,进行了1,773次自主实验,最终发现了106个创新性的、最先进(SOTA)的线性注意力架构。 性能超越人类设计:AI发现的架构展示了新的设计原则,系统性地超越了人类设计的基线模型。 科学发现的缩放定律:论文建立了第一个科学发现的经验缩放定律,表明架构上的突破可以进行计算扩展,将研究进展从受限于人类的过程转变为可由计算资源扩展的过程。图1清楚地展示了SOTA架构的累积数量与消耗的计算小时数之间的强线性关系 33。 新兴设计模式:论文详细分析了这些突破所依赖的新兴设计模式和自主研究能力,为自加速AI系统奠定了蓝图。 4. 关键发现与洞察 LLM驱动架构搜索的有效性:搜索过程显示,平均适应度得分呈现特征学习曲线,在初期快速增长后趋于稳定。尽管适应度得分增长趋于平缓,但系统并未遇到性能瓶颈,原始基准和损失指标持续稳步改进。这证实了LLM驱动的搜索在整个搜索过程中有效地生成了更优的架构。 架构设计模式: 模型复杂度稳定性:ASI-Arch 在搜索过程中,模型参数数量分布保持稳定,没有出现系统性增长。大多数架构始终落在 400-600M 参数范围内。这表明 ASI-Arch 并没有简单地通过增加模型大小来提高性能,而是即使在没有明确参数约束的情况下也保持了架构纪律。 组件偏好:ASI-Arch 明显偏好成熟的架构组件,如门控机制和卷积,而不太常见的组件(如物理启发机制)则很少出现。顶尖模型库(SOTA模型)在组件使用上呈现出不那么明显的长尾分布。这意味着虽然系统探索了许多新颖组件,但表现最佳的模型集中在核心经过验证的有效技术上。这与人类科学家的方法类似:通过在经过验证的技术基础上进行迭代和创新来取得最先进的成果,而不是为了新颖性而追求新颖性。 优秀设计的来源:论文通过追溯每个设计理念的来源(人类专家文献的认知、相关历史实验的分析总结、或模型自身生成的新颖思想)进行了量化。结果表明,对于所有生成的架构,大多数设计理念来自“认知”阶段,显示出对先前示例的基线依赖。然而,对于表现最佳的模型,归因于“分析”阶段的设计组件比例显著增加。这表明,AI要产生突破性成果,不能仅仅重用过去的成功(依赖认知),而必须通过探索、总结和发现(依赖分析)来合成新颖和卓越的解决方案。 5. 开放资源与未来工作 开放资源:为了普及AI驱动的研究,论文开源了完整的框架、发现的架构和认知轨迹。 未来工作: 多架构初始化:当前从单个基线 DeltaNet 开始搜索。未来可以尝试用多样化的架构组合同时进行初始化,这可能发现全新的架构家族。 组件级分析:由于每次设计迭代的资源密集性,论文未进行细粒度的消融研究。未来可以解剖管道,更好地理解各部分(如“认知”和“分析”模块)的相互作用和重要性。 工程优化:论文的重点在于AI-for-AI框架的设计和架构创新,未包含为新发现架构编写自定义加速内核(如使用Triton)的劳动密集型任务。未来的关键一步是关注工程方面,对这些模型的效率和延迟进行基准测试,从而完成从自动化发现到实际部署的循环。 这篇论文为实现AI的自我加速研究提供了一个令人兴奋的蓝图,展示了AI在未来科学发现中不可估量的潜力。