karminski-牙医 0 关注者 关注 4个月前 解读下这次 DeepSeek 顺带发布的 DeepSeek-R1-0528-Distilled-Qwen3-8B 的数据: 其中 AIME'24 的确是领先的, 但是其他的数据不是领先的,所以不要期待太多。 可以得出的结论是, 用这个模型替代原本的 Qwen3-8B 非常不错, 能力有不小的提升. 但是试图替代 Qwen3-235B-A22B 是不合理的. 仅从知识量来讲, 二者激活参数差距 #DeepSeek #AIME'24 #DeepSeek-R1-0528-Distilled-Qwen3-8B #模型替代 #Qwen3-8B #Qwen3-235B-A22B #数据分析 前往原网页查看