时政
财经
科技
登录
#蒸馏
关注
Jeff Li
5个月前
#Jeff科技视角 大模型的“蒸馏”:
#大模型
#蒸馏
#Jeff科技视角
分享
评论 0
0
Jeff Li
5个月前
李老师讲课,什么是大模型的蒸馏(distillation),以及我们应该如何看DeepSeek遭遇的“模型蒸馏”指控
#大模型
#蒸馏
#DeepSeek
#技术讲解
#模型蒸馏指控
分享
评论 0
0
网易新闻-财联社
5个月前
OpenAI宣称DeepSeek违规“蒸馏”,但没有给出证据
OpenAI宣称DeepSeek违规“蒸馏”,但没有给出证据,证据,蒸馏,特朗普,openai,人工智能公司,deepseek
#OpenAI
#DeepSeek
#蒸馏
#违规
分享
评论 0
0
向阳乔木
5个月前
老师将复杂的科学理论,用通俗易懂的语言和例子讲解给学生,可以看作是一种“蒸馏”。 导师将多年的经验和技能,总结成简洁的建议和方法,传授给新手,也可以看作是一种“蒸馏”。 学生自己整理笔记,将厚厚的教材提炼成精简的知识点,也可以看作是一种“蒸馏”。 --- AI对蒸馏解读太有趣了。
#蒸馏
#知识传播
#教学方法
#经验总结
#学习技巧
#AI解读
分享
评论 0
0
Herman Jin
5个月前
你听说过什么叫“蒸馏”么?说个大白话: 就是拿人家算出来的模型参数,跳过所有数据清洗、训练,做最后一程。其实没有任何创新 好像人家证明了π=3.14,他拿结果去算了圆面积。让他再自己去证明算一个e,他又抓瞎了
#蒸馏
#人工智能
#机器学习
#模型创新
#数据科学
分享
评论 0
0
九原客
5个月前
用17K从DeepSeek R1 蒸馏的SFT数据,微调Qwen2.5-32B,效果非常不错。 与DeepSeek R1自家蒸馏的版本相比略逊一些,但是后者是800k sample,而且这17k数据以及合成脚本完全开源。 方法来自之前蒸馏QwQ的Sky-T1。 P.S. 7B的模型效果提升不佳,看来越小的模型需要越多的数据激活能力。 1/2
#DeepSeek R1
#SFT数据
#Qwen2.5-32B
#微调
#蒸馏
#Sky-T1
#模型效果
#数据开源
#17K数据
分享
评论 0
0
Panda
5个月前
预训练23年底就死了,只是这两个月才埋 微调24年q1也死了,只是还没有被埋 更是发现有些名词从前沿传到创投圈就被异化了词义: 大模型做teacher model教作为student的小模型,有人把这个过程叫做蒸馏,是完全错误的 teacher student的模型范式和蒸馏没关系 蒸馏也不是简单的做数据再训练 weak to strong learning才是核心
#预训练
#微调
#大模型
#teacher model
#student model
#蒸馏
#模型范式
#weak to strong learning
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞