#模型效果

4个月前

Qwen 的模型哪怕是最强的 Qwen3-Max 也不是今天才发布，怎么千问 App 突然就效果特别好了呢。好难猜啊。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#Qwen #Qwen3-Max #千问App #模型效果 #猜测

8个月前

claude-4-sonnot效果是最好的但是3号我就把请求用完了剩下的模型真是路边一条我本可以忍受黑暗，如果我不曾见过太阳

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#Claude-4 #sonnet #模型效果 #请求次数限制 #失望

9个月前

很重要的一点：怎么解决效果和API效果不一致的问题。我现在有点懂一个细节疑惑了：我经常推荐Claude工作台，我测试提示词等都是通过工作台这里看返回效果，做的就是测试下模型效果、改改提示词、改改参数等，然后我就写文档转技术。但我经常发现工作台返回的效果和我转技术后API返回的效果不同。

#API效果 #模型效果 #提示词 #Claude工作台 #技术文档

1年前

搞了这么久，Mac 32G内存最大只能跑14b的模型，64G能跑28b，128G是56b，最大512G可以跑200b 可是原模型大小有671b。。。用本地小模型的人很快会发现，自己的模型效果为什么和API里serve的完全不一样？所以，所谓deepseek模型特别快，所以可以跑终端的意义何在？哪个模型的小版本不能跑终端？ DeepSeek现在看起来，唯一的价值可能只剩，他们把fb8跑通了 🤣🤣🤣

#Mac #深度学习 #模型效果 #API服务 #DeepSeek

1年前

用17K从DeepSeek R1 蒸馏的SFT数据，微调Qwen2.5-32B，效果非常不错。与DeepSeek R1自家蒸馏的版本相比略逊一些，但是后者是800k sample，而且这17k数据以及合成脚本完全开源。方法来自之前蒸馏QwQ的Sky-T1。 P.S. 7B的模型效果提升不佳，看来越小的模型需要越多的数据激活能力。 1/2

#DeepSeek R1 #SFT数据 #Qwen2.5-32B #微调 #蒸馏 #Sky-T1 #模型效果 #数据开源 #17K数据