Panda 0 关注者 关注 8个月前 预训练23年底就死了,只是这两个月才埋 微调24年q1也死了,只是还没有被埋 更是发现有些名词从前沿传到创投圈就被异化了词义: 大模型做teacher model教作为student的小模型,有人把这个过程叫做蒸馏,是完全错误的 teacher student的模型范式和蒸馏没关系 蒸馏也不是简单的做数据再训练 weak to strong learning才是核心 #预训练 #微调 #大模型 #teacher model #student model #蒸馏 #模型范式 #weak to strong learning 前往原网页查看