今天才知道，为啥千问不训一个特别大的模型。原来是他们的训练框架有问题，训大的就崩了。这和微软特别类似，微软的Phi只训练到最大14B的模型。the information就报道更大的模型训练了，效果却更差，幻觉多。

#千问训练框架 #大模型训练 #微软Phi #the information报道 #模型幻觉

相关新闻

Jeremy Feng

1个月前

论文里讲的都很成功，现实却满是坑。 Hugging Face 最新推出的《The Smol Training Playbook》不仅教如何成功训练大模型，也分享那些“不要这么做”、“这里有坑”的失败经验。

卢尔辰

1个月前

很多投资AI硬件公司的人，其实并不真正理解“训练（Training）”和“推理（Inference）”在算力需求上的巨大差异。普通用户在使用AI应用时，实际消耗的算力极少，远远低于模型训练阶段。大模型（如 GPT-4、Claude、Gemini 等）在训练时，需要数千甚至上万张 H100 显卡并行运行数周。而进入推理阶段后（也就是你在手机上向ChatGPT提问时），只需几张 GPU 的

勃勃OC

4个月前

特斯拉其实变相承认自己现有的FSD无法兑现，所以才： 1）宣布要训练一个10x的大模型 2）在最近的FSD致死事故判决中败诉，判罚20多亿。

歸藏(guizang.ai)

4个月前

中间他遇到了 AI 都会遇到的问题，他发现自己的 Gemini 模型没办法调用翻译内容。然后他开始自查发现是模型幻觉了，自己编造了 Gemini 的模型名称，这里他自己用 API 拉取了所有的模型名称，最后成功调用了 Gemini。这才是我们理想中的 Agent 发现错误以后会自己寻找问题，然后自己尝试解决。

Jixian Wang

7个月前

数据污染确实是一个不回避的问题，不过更高级的应用还是要靠Re/Act 和 RAG + MCP 的模式。只是用模型的推理和总结能力，限制模型幻觉。

今天才知道，为啥千问不训一个特别大的模型。原来是他们的训练框架有问题，训大的就崩了。 这和微软特别类似，微软的Phi只训练到最大14B的模型。the information就报道更大的模型训练了，效果却更差，幻觉多。

相关新闻

今天才知道，为啥千问不训一个特别大的模型。原来是他们的训练框架有问题，训大的就崩了。这和微软特别类似，微软的Phi只训练到最大14B的模型。the information就报道更大的模型训练了，效果却更差，幻觉多。