时政
财经
科技
登录
#数据重要性
关注
勃勃OC
5个月前
o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。显然r1的代码能力不如o3-mini。这表明DeepSeek并没有魔法,数据决定模型,RL也是。
#机器学习
#深度学习
#模型训练
#强化学习
#代码能力
#数据重要性
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞