Jeff Li2025-01-30 09:48:24李老师讲课,什么是大模型的蒸馏(distillation),以及我们应该如何看DeepSeek遭遇的“模型蒸馏”指控 #大模型#蒸馏#DeepSeek#技术讲解#模型蒸馏指控
财联社2025-01-30 08:06:09OpenAI宣称DeepSeek违规“蒸馏”,但没有给出证据OpenAI宣称DeepSeek违规“蒸馏”,但没有给出证据,证据,蒸馏,特朗普,openai,人工智能公司,deepseek#OpenAI#DeepSeek#蒸馏#违规
向阳乔木2025-01-27 22:57:58老师将复杂的科学理论,用通俗易懂的语言和例子讲解给学生,可以看作是一种“蒸馏”。 导师将多年的经验和技能,总结成简洁的建议和方法,传授给新手,也可以看作是一种“蒸馏”。 学生自己整理笔记,将厚厚的教材提炼成精简的知识点,也可以看作是一种“蒸馏”。 --- AI对蒸馏解读太有趣了。#蒸馏#知识传播#教学方法#经验总结#学习技巧#AI解读
Herman Jin2025-01-24 14:40:02你听说过什么叫“蒸馏”么?说个大白话: 就是拿人家算出来的模型参数,跳过所有数据清洗、训练,做最后一程。其实没有任何创新 好像人家证明了π=3.14,他拿结果去算了圆面积。让他再自己去证明算一个e,他又抓瞎了#蒸馏#人工智能#机器学习#模型创新#数据科学
九原客2025-01-23 08:07:21用17K从DeepSeek R1 蒸馏的SFT数据,微调Qwen2.5-32B,效果非常不错。 与DeepSeek R1自家蒸馏的版本相比略逊一些,但是后者是800k sample,而且这17k数据以及合成脚本完全开源。 方法来自之前蒸馏QwQ的Sky-T1。 P.S. 7B的模型效果提升不佳,看来越小的模型需要越多的数据激活能力。 1/2 #DeepSeek R1#SFT数据#Qwen2.5-32B#微调#蒸馏#Sky-T1#模型效果#数据开源#17K数据
Panda2025-01-07 19:02:35预训练23年底就死了,只是这两个月才埋 微调24年q1也死了,只是还没有被埋 更是发现有些名词从前沿传到创投圈就被异化了词义: 大模型做teacher model教作为student的小模型,有人把这个过程叫做蒸馏,是完全错误的 teacher student的模型范式和蒸馏没关系 蒸馏也不是简单的做数据再训练 weak to strong learning才是核心#预训练#微调#大模型#teacher model#student model#蒸馏#模型范式#weak to strong learning