歸藏(guizang.ai) 0 关注者 关注 2个月前 K 2 的技术报告也发布了 专家数量:384个专家,每次前向激活8个,提升了稀疏性和性能。 注意力机制:采用多头潜在注意力(MLA),隐藏维度7168,注意力头数64(相比同类模型减少一半,提升长文本推理效率)。 优化器:创新性地提出了MuonClip优化器,将高效的Muon算法与QK-Clip权重裁剪机制结合,解决了大规模训练中的不稳定问题,防止注意力logit爆炸。 数据处理:预训练数 #K 2 #多头潜在注意力 #MuonClip优化器 #权重裁剪 #大规模训练 前往原网页查看