时政
财经
科技

#大模型训练

高级分析师
高级分析师
2025-03-26 22:01:28

今天才知道,为啥千问不训一个特别大的模型。原来是他们的训练框架有问题,训大的就崩了。 这和微软特别类似,微软的Phi只训练到最大14B的模型。the information就报道更大的模型训练了,效果却更差,幻觉多。

#千问训练框架#大模型训练#微软Phi
没有更多了 🤐