解读下这次 DeepSeek 顺带发布的 DeepSeek-R1-0528-Distilled-Qwen3-8B 的数据：其中 AIME'24 的确是领先的, 但是其他的数据不是领先的，所以不要期待太多。可以得出的结论是, 用这个模型替代原本的 Qwen3-8B 非常不错, 能力有不小的提升. 但是试图替代 Qwen3-235B-A22B 是不合理的. 仅从知识量来讲, 二者激活参数差距

#DeepSeek #AIME'24 #DeepSeek-R1-0528-Distilled-Qwen3-8B #模型替代 #Qwen3-8B #Qwen3-235B-A22B #数据分析

相关新闻

王局志安

2天前

AI吧？

XiXiPee🇦🇺🇺🇦🇮🇱

2天前

日黑这个词起的很好把指出日本客观存在的问题一律扣上“抹黑”的帽子文笔深得某国外交部真传其实日本根本不需要黑有脑子的人看看数据就知道这是个没有前途的国家

猫神

3天前

这个数据📊是哪儿来的？别的不说，120岁概率是0.002% 也就是十万分之二意味着一个100万人口的县城有20个120岁的老人～～～～～～～～～～猫神身边从来没有人120岁我也没有听说有人120岁十万分之二的概率已经很高了意味着北京上海这些城市都有几百人120岁有这个可能吗？🤔

howie.serious

5天前

if 你有 apple watch 和 claude， then 赶紧把 opus 4.6 变成你的健康顾问。让数据说话，让 Apple watch 里的健康运动睡眠等数据从死数据变成活的建议。平时整天研究 ai，过度工作的人，就别过度运动了。保证充足的睡眠，夜里 10 点准时上床睡觉，早上 6 点半准时起床做早饭。其他一切精力用来玩 ai，用 ai🤣

Xiaowen

1周前

用我的商业模式分析工具跑了月之暗面的经营和战略报告。不敢发，感觉太不礼貌了。🤦‍♂️ 今天的份额我换个零售企业……

关联事件

深度学习模型升级引发AI能力大跃进，行业迎新变革

143

深Seek R1模型完成“小版本”升级，显著增强代码能力、语义理解和复杂逻辑推理，带来性能提升。此次升级由官方宣布，用户可在官网和APP体验，模型在训练基础上基于V3-0324版本，效果明显优于之前版本。尽管期待大版本更新，但此次小升级已引发行业关注，显示出深度学习技术不断突破的趋势。未来，模型升级或将推动AI在编程、文本理解等领域的广泛应用，影响行业发展方向。