Panda2025-01-29 03:18:32【从DeepSeek到AI行业的四个思考】 一、论文推荐:大模型领域的「教科书式」样本 今天重读DeepSeek系列论文,印象深刻的其实是24年2月的 DeepSeek-Math ,如果说关于大模型领域你没有太多时间看论文,那单看这篇就够了,蕴含了他们对数据工程、RL的一切思考和实践,而其他论文都像是按部就班的后来之作,solid的工作是今天流量爆炸的基础 二、GPU ownership ≠#AI#DeepSeek#大模型
Panda2025-01-07 19:02:35预训练23年底就死了,只是这两个月才埋 微调24年q1也死了,只是还没有被埋 更是发现有些名词从前沿传到创投圈就被异化了词义: 大模型做teacher model教作为student的小模型,有人把这个过程叫做蒸馏,是完全错误的 teacher student的模型范式和蒸馏没关系 蒸馏也不是简单的做数据再训练 weak to strong learning才是核心#预训练#微调#大模型