用17K从DeepSeek R1 蒸馏的SFT数据，微调Qwen2.5-32B，效果非常不错。与DeepSeek R1自家蒸馏的版本相比略逊一些，但是后者是800k sample，而且这17k数据以及合成脚本完全开源。方法来自之前蒸馏QwQ的Sky-T1。 P.S. 7B的模型效果提升不佳，看来越小的模型需要越多的数据激活能力。 1/2

#DeepSeek R1 #SFT数据 #Qwen2.5-32B #微调 #蒸馏 #Sky-T1 #模型效果 #数据开源 #17K数据

相关新闻

Saito

1周前

被毕业的同事其实并没有消失，他们只是被蒸馏成了 Token，换成另一种形式陪伴你！

九原客

4个月前

Qwen 的模型哪怕是最强的 Qwen3-Max 也不是今天才发布，怎么千问 App 突然就效果特别好了呢。好难猜啊。

Chenggang Xu 许成钢

5个月前

近来，无论在中国还是在西方世界，甚至在硅谷，都流行一种观点：中国在高科技诸多领域正迅速逼近美国，甚至在部分领域已与美国比肩乃至超越，典型案例是 AI。就个别明星企业或项目看，这种判断并非全无依据；但若要评价一个地区或一个领域的整体情况，需要看全貌。《时代》杂志刚发布的 2025 年度“最佳发明”榜单共收录 300 项发明。在其中的 “人工智能”专属类别里共有 8 项入榜（），其中 6 项来自美国

勃勃OC

6个月前

DeepSeek R1登上《自然》杂志封面，成为首个通过同行评议的先进大语言模型。

Cell 细胞

6个月前

所以，看空高德扫街榜的一个原因：不够去中心化，不中立，除非他把算法开源，数据开源