#模型替代

karminski-牙医

10个月前

解读下这次 DeepSeek 顺带发布的 DeepSeek-R1-0528-Distilled-Qwen3-8B 的数据：其中 AIME'24 的确是领先的, 但是其他的数据不是领先的，所以不要期待太多。可以得出的结论是, 用这个模型替代原本的 Qwen3-8B 非常不错, 能力有不小的提升. 但是试图替代 Qwen3-235B-A22B 是不合理的. 仅从知识量来讲, 二者激活参数差距也足够大, 22B vs 8B. 所以并不适合通用场景. 另外 GPQA Diamond 的分数反而下降了, 尽管下降不严重, 因此建议如果要投入生产, 需要评估后再使用. 以免在其他的地方出现问题. 我的建议是如果有任务嵌入的场景, 可以试试这个模型, 或者用这个模型进行再次微调, 估计会有不错的结果. #deepseek

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek #AIME'24 #DeepSeek-R1-0528-Distilled-Qwen3-8B #模型替代 #Qwen3-8B #Qwen3-235B-A22B #数据分析