时政
财经
科技

#DeepSeek-R1-0528-Distilled-Qwen3-8B

karminski-牙医
karminski-牙医
2025-05-30 05:23:18

解读下这次 DeepSeek 顺带发布的 DeepSeek-R1-0528-Distilled-Qwen3-8B 的数据: 其中 AIME'24 的确是领先的, 但是其他的数据不是领先的,所以不要期待太多。 可以得出的结论是, 用这个模型替代原本的 Qwen3-8B 非常不错, 能力有不小的提升. 但是试图替代 Qwen3-235B-A22B 是不合理的. 仅从知识量来讲, 二者激活参数差距

#DeepSeek#AIME'24#DeepSeek-R1-0528-Distilled-Qwen3-8B
没有更多了 🤐