2025-05-30 23:48:13
解读下这次 DeepSeek 顺带发布的 DeepSeek-R1-0528-Distilled-Qwen3-8B 的数据: 其中 AIME'24 的确是领先的, 但是其他的数据不是领先的,所以不要期待太多。 可以得出的结论是, 用这个模型替代原本的 Qwen3-8B 非常不错, 能力有不小的提升. 但是试图替代 Qwen3-235B-A22B 是不合理的. 仅从知识量来讲, 二者激活参数差距也足够大, 22B vs 8B. 所以并不适合通用场景. 另外 GPQA Diamond 的分数反而下降了, 尽管下降不严重, 因此建议如果要投入生产, 需要评估后再使用. 以免在其他的地方出现问题. 我的建议是如果有任务嵌入的场景, 可以试试这个模型, 或者用这个模型进行再次微调, 估计会有不错的结果. #deepseek
2025-05-30 20:26:24
2025-05-30 18:42:15
2025-05-30 16:17:29