Andy Stewart

Andy Stewart

0 关注者

3个月前

谷歌在NeurIPS 2025上发布的两项关于大模型新架构的研究,分别是“Titans”和“MIRAS”。 这些研究突破Transformer架构在处理超长上下文时的计算瓶颈。Transformer的自注意力机制导致计算复杂度与序列长度平方成正比,而谷歌的新架构通过“测试时训练”机制,将上下文窗口扩展至200万tokens,并引入了新的记忆模块和理论框架,以提升模型的表达能力和推理效率。 1.

热门新闻