勃勃OC 0 关注者 关注 6个月前 o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。显然r1的代码能力不如o3-mini。这表明DeepSeek并没有魔法,数据决定模型,RL也是。 #机器学习 #深度学习 #模型训练 #强化学习 #代码能力 #数据重要性 前往原网页查看