高级分析师

高级分析师

今天才知道,为啥千问不训一个特别大的模型。原来是他们的训练框架有问题,训大的就崩了。 这和微软特别类似,微软的Phi只训练到最大14B的模型。the information就报道更大的模型训练了,效果却更差,幻觉多。

评论 0