首页点击榜热搜榜通知我的

#数据开源

2025-01-23 08:07:21

用17K从DeepSeek R1 蒸馏的SFT数据，微调Qwen2.5-32B，效果非常不错。与DeepSeek R1自家蒸馏的版本相比略逊一些，但是后者是800k sample，而且这17k数据以及合成脚本完全开源。方法来自之前蒸馏QwQ的Sky-T1。 P.S. 7B的模型效果提升不佳，看来越小的模型需要越多的数据激活能力。 1/2
#DeepSeek R1 #SFT数据 #Qwen2.5-32B #微调 #蒸馏 #Sky-T1 #模型效果 #数据开源 #17K数据

24小时点击排行

1

因马斯克“亲美”举动加拿大超3.4万人请愿撤销其公民身份

2

"特朗普意在离间中俄"

3

小哪吒“首闯”联合国中国电影大获赞誉

4

踢球遛狗搬重物……这届GDC大会，人形机器人有多吸睛？

5

美国宾夕法尼亚州医院枪击案造成2死5伤

6

特朗普：美国国际开发署原总部大楼将由美海关与边境保护局使用

7

普京发表视频讲话强调建设与发展武装力量的战略方针不变

8

美国宾夕法尼亚州一医院发生枪击事件致1死多伤枪手被击毙

9

哈马斯强烈谴责以色列推迟释放巴勒斯坦被扣押人员

10

美众议员称特朗普政府将取消对近东救济工程处的资助

热搜榜

热门事件

俄乌战争专题

特朗普，马斯克相关事件跟踪

巴以冲突最新进展

尹锡悦弹劾案全纪录

比亚迪”黑奴工”事件

香港47人案

各种举报事件汇总

AI热点追踪

加密货币热点跟踪

推荐信息源

网易新闻-红星新闻