高级分析师 0 关注者 关注 4个月前 今天才知道,为啥千问不训一个特别大的模型。原来是他们的训练框架有问题,训大的就崩了。 这和微软特别类似,微软的Phi只训练到最大14B的模型。the information就报道更大的模型训练了,效果却更差,幻觉多。 #千问训练框架 #大模型训练 #微软Phi #the information报道 #模型幻觉 前往原网页查看