高级分析师2025-03-26 22:01:28今天才知道,为啥千问不训一个特别大的模型。原来是他们的训练框架有问题,训大的就崩了。 这和微软特别类似,微软的Phi只训练到最大14B的模型。the information就报道更大的模型训练了,效果却更差,幻觉多。#千问训练框架#大模型训练#微软Phi