Gorden Sun 0 关注者 关注 4天前 Mind Lab发布:1000B模型的高效强化学习框架 使用LoRA,对1000B MoE模型进行强化学习,相比传统方法,仅使用10%的GPU资源。提升了模型的特定能力,且保留了原始的通用能力。相关代码已被合并到魔搭和英伟达的Github分支。 官方介绍: 前往原网页查看