勃勃OC2025-02-02 00:02:37o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。显然r1的代码能力不如o3-mini。这表明DeepSeek并没有魔法,数据决定模型,RL也是。#机器学习#深度学习#模型训练#强化学习#代码能力#数据重要性