Line

Line

0 关注者

1个月前

Deepseek 也用了几何方法来优化模型前向传播的残差权重。 他们用的是 Birkhoff 多胞体(双随机矩阵集合) 流形。当这种约束应用在残差层时,一个作用在于可以有效的模拟特征融合过程,同时它的范数为 1,还能保证模型在训练时梯度不会消失的或者爆炸。 为不同的模块使用不同的流形约束的方法在 Thinking Machines Jeremy Bernstein 的这篇文章 《Modular

热门新闻