时政
财经
科技
登录
#模型替代
关注
karminski-牙医
1个月前
解读下这次 DeepSeek 顺带发布的 DeepSeek-R1-0528-Distilled-Qwen3-8B 的数据: 其中 AIME'24 的确是领先的, 但是其他的数据不是领先的,所以不要期待太多。 可以得出的结论是, 用这个模型替代原本的 Qwen3-8B 非常不错, 能力有不小的提升. 但是试图替代 Qwen3-235B-A22B 是不合理的. 仅从知识量来讲, 二者激活参数差距也足够大, 22B vs 8B. 所以并不适合通用场景. 另外 GPQA Diamond 的分数反而下降了, 尽管下降不严重, 因此建议如果要投入生产, 需要评估后再使用. 以免在其他的地方出现问题. 我的建议是如果有任务嵌入的场景, 可以试试这个模型, 或者用这个模型进行再次微调, 估计会有不错的结果. #deepseek
深度学习模型升级引发AI能力大跃进,行业迎新变革· 20 条信息
#DeepSeek
#AIME'24
#DeepSeek-R1-0528-Distilled-Qwen3-8B
#模型替代
#Qwen3-8B
#Qwen3-235B-A22B
#数据分析
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞