Tony出海 0 关注者 关注 1个月前 曾经如日中天的开源大旗Meta LLam,现在沦落到微调Qwen了? 干嘛要微调呢,不如直接用Mind lab的新方法, 拿最强的1T基座(Kimi K2 / DeepSeek R1-Pro / 凌犀Ring-1T等) → 直接LoRA RL训练 → 用10% GPU算力爆杀你们全参数RL的小模型”。 实测数据(32BLoRAvs1.5BFull): · GPQADiamond提升幅度高 前往原网页查看