news.news

2025-01-30 10:56:47

#Jeff科技视角大模型的“蒸馏”：

2025-01-30 09:48:24

2025-01-30 08:06:09

2025-01-27 22:57:58

老师将复杂的科学理论，用通俗易懂的语言和例子讲解给学生，可以看作是一种“蒸馏”。导师将多年的经验和技能，总结成简洁的建议和方法，传授给新手，也可以看作是一种“蒸馏”。学生自己整理笔记，将厚厚的教材提炼成精简的知识点，也可以看作是一种“蒸馏”。 --- AI对蒸馏解读太有趣了。

2025-01-24 14:40:02

你听说过什么叫“蒸馏”么？说个大白话：就是拿人家算出来的模型参数，跳过所有数据清洗、训练，做最后一程。其实没有任何创新好像人家证明了π=3.14，他拿结果去算了圆面积。让他再自己去证明算一个e，他又抓瞎了

2025-01-23 08:07:21

2025-01-07 19:02:35

预训练23年底就死了，只是这两个月才埋微调24年q1也死了，只是还没有被埋更是发现有些名词从前沿传到创投圈就被异化了词义：大模型做teacher model教作为student的小模型，有人把这个过程叫做蒸馏，是完全错误的 teacher student的模型范式和蒸馏没关系蒸馏也不是简单的做数据再训练 weak to strong learning才是核心

#蒸馏

#Jeff科技视角大模型的“蒸馏”：

李老师讲课，什么是大模型的蒸馏(distillation)，以及我们应该如何看DeepSeek遭遇的“模型蒸馏”指控

OpenAI宣称DeepSeek违规“蒸馏”，但没有给出证据

你听说过什么叫“蒸馏”么？说个大白话：就是拿人家算出来的模型参数，跳过所有数据清洗、训练，做最后一程。其实没有任何创新好像人家证明了π=3.14，他拿结果去算了圆面积。让他再自己去证明算一个e，他又抓瞎了