时政
财经
科技
虚拟货币
其他
登录
#大模型训练
关注
Jeremy Feng
1个月前
论文里讲的都很成功,现实却满是坑。 Hugging Face 最新推出的《The Smol Training Playbook》不仅教如何成功训练大模型,也分享那些“不要这么做”、“这里有坑”的失败经验。
#大模型训练
#Hugging Face
#失败经验
#教训
#避坑指南
分享
评论 0
0
卢尔辰
1个月前
很多投资AI硬件公司的人,其实并不真正理解“训练(Training)”和“推理(Inference)”在算力需求上的巨大差异。 普通用户在使用AI应用时,实际消耗的算力极少,远远低于模型训练阶段。 大模型(如 GPT-4、Claude、Gemini 等)在训练时,需要数千甚至上万张 H100 显卡并行运行数周。 而进入推理阶段后(也就是你在手机上向ChatGPT提问时),只需几张 GPU 的部分算力,有时甚至仅靠 CPU 或低功耗芯片即可完成。 就是说每次调用 GPT、Midjourney、Claude 等应用时,所消耗的算力仅为训练期的 百万分之一到千分之一。
#AI硬件投资
#训练与推理差异
#算力需求
#大模型训练
#GPU
分享
评论 0
0
勃勃OC
4个月前
特斯拉其实变相承认自己现有的FSD无法兑现,所以才: 1)宣布要训练一个10x的大模型 2)在最近的FSD致死事故判决中败诉,判罚20多亿。
#特斯拉FSD
#大模型训练
#致死事故败诉
#负面
#20亿判罚
分享
评论 0
0
高级分析师
8个月前
今天才知道,为啥千问不训一个特别大的模型。原来是他们的训练框架有问题,训大的就崩了。 这和微软特别类似,微软的Phi只训练到最大14B的模型。the information就报道更大的模型训练了,效果却更差,幻觉多。
#千问训练框架
#大模型训练
#微软Phi
#the information报道
#模型幻觉
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞