#蒸馏

11个月前

#Jeff科技视角大模型的“蒸馏”：

#大模型 #蒸馏 #Jeff科技视角

11个月前

李老师讲课，什么是大模型的蒸馏(distillation)，以及我们应该如何看DeepSeek遭遇的“模型蒸馏”指控

#大模型 #蒸馏 #DeepSeek #技术讲解 #模型蒸馏指控

网易新闻-财联社

11个月前

OpenAI宣称DeepSeek违规“蒸馏”，但没有给出证据

OpenAI宣称DeepSeek违规“蒸馏”，但没有给出证据,证据,蒸馏,特朗普,openai,人工智能公司,deepseek

#OpenAI #DeepSeek #蒸馏 #违规

11个月前

老师将复杂的科学理论，用通俗易懂的语言和例子讲解给学生，可以看作是一种“蒸馏”。导师将多年的经验和技能，总结成简洁的建议和方法，传授给新手，也可以看作是一种“蒸馏”。学生自己整理笔记，将厚厚的教材提炼成精简的知识点，也可以看作是一种“蒸馏”。 --- AI对蒸馏解读太有趣了。

#蒸馏 #知识传播 #教学方法 #经验总结 #学习技巧 #AI解读

11个月前

你听说过什么叫“蒸馏”么？说个大白话：就是拿人家算出来的模型参数，跳过所有数据清洗、训练，做最后一程。其实没有任何创新好像人家证明了π=3.14，他拿结果去算了圆面积。让他再自己去证明算一个e，他又抓瞎了

#蒸馏 #人工智能 #机器学习 #模型创新 #数据科学

11个月前

用17K从DeepSeek R1 蒸馏的SFT数据，微调Qwen2.5-32B，效果非常不错。与DeepSeek R1自家蒸馏的版本相比略逊一些，但是后者是800k sample，而且这17k数据以及合成脚本完全开源。方法来自之前蒸馏QwQ的Sky-T1。 P.S. 7B的模型效果提升不佳，看来越小的模型需要越多的数据激活能力。 1/2

#DeepSeek R1 #SFT数据 #Qwen2.5-32B #微调 #蒸馏 #Sky-T1 #模型效果 #数据开源 #17K数据

11个月前

预训练23年底就死了，只是这两个月才埋微调24年q1也死了，只是还没有被埋更是发现有些名词从前沿传到创投圈就被异化了词义：大模型做teacher model教作为student的小模型，有人把这个过程叫做蒸馏，是完全错误的 teacher student的模型范式和蒸馏没关系蒸馏也不是简单的做数据再训练 weak to strong learning才是核心

#预训练 #微调 #大模型 #teacher model #student model #蒸馏 #模型范式 #weak to strong learning