时政
财经
科技
虚拟货币
其他
登录
#多头潜在注意力
关注
歸藏(guizang.ai)
1个月前
K 2 的技术报告也发布了 专家数量:384个专家,每次前向激活8个,提升了稀疏性和性能。 注意力机制:采用多头潜在注意力(MLA),隐藏维度7168,注意力头数64(相比同类模型减少一半,提升长文本推理效率)。 优化器:创新性地提出了MuonClip优化器,将高效的Muon算法与QK-Clip权重裁剪机制结合,解决了大规模训练中的不稳定问题,防止注意力logit爆炸。 数据处理:预训练数据覆盖Web文本、代码、数学和知识四大领域,采用合成重写(rephrasing)技术提升token利用率,尤其在知识和数学领域通过多样化重写增强泛化能力。 训练规模:预训练总计15.5万亿高质量token,采用4096-token上下文窗口,后期通过YaRN方法扩展到128k上下文。 稀疏性Scaling Law:实验表明,在激活参数数固定的情况下,增加专家总数(提升稀疏性)能显著降低训练和验证损失,提升模型表现。 推理优化:减少注意力头数,降低长文本推理的计算开销,提升实际应用效率。 硬件:基于NVIDIA H800 GPU集群,采用多级并行策略和高效的激活存储与重计算技术,保证大模型训练的可扩展性和稳定性。
#K 2
#多头潜在注意力
#MuonClip优化器
#权重裁剪
#大规模训练
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞