search icon

6万张显卡之谜:一文看懂DeepSeek的真实算力 今天读卓克讲Deepseek的三篇文章,AI总结做些笔记。 Deepseek到底有多少张H100显卡? 坊间传闻中DeepSeek拥有5万张H100计算卡。 但实际上,DeepSeek的计算卡主要由上一代卡和阉割版本的卡组成。 据Semianalysis分析,DeepSeek大约有6万张卡。 包括A100、H800、H100各1万张,以及3万张H20。 Semianalysis用四大维度推算的: 1️⃣ 英伟达芯片产能 & 美国出口记录 2️⃣ 服务器采购成本逆向推算 3️⃣ 技术文档反推模型算力需求 4️⃣ 母公司投资能力评估 💡 关键结论: • 总芯片6万张,但实际算力仅≈1.95万张H100水平 • 受出口管制影响,低算力H20芯片占比达50% DeepSeek的训练成本仅为600万美元? 说法有误导性。 这仅仅是DeepSeek自己公布的V3模型预训练费用:数据费用 + H800 GPU运行费用。 实际总花费远高于此,包括购买GPU的7亿美元、搭建服务器的9亿美元,以及四年运营成本9.44亿美元,总计约26亿美元。 将600万美元作为DeepSeek的训练成本会严重低估实际投入,让人误以为大语言模型开发的门槛很低。 DeepSeek R1 是从GPT的模型里蒸馏出来的吗? 不是从GPT的模型里蒸馏出来的。 Perplexity的CEO和Stable Diffusion的创始人都明确表示R1不是抄袭或蒸馏。 开源社区(GitHub)也普遍认为R1不是蒸馏出来的。 DeepSeek持续提交大语言模型的不同版本,且都是MIT协议,允许使用者随意使用和修改。 多家公司复现R1模型,包括Hugging Face, Perplexity, 英伟达等,进一步证明了R1并非来自GPT模型的蒸馏:如果R1是蒸馏来的,这些公司不可能在短时间内商用,并且不怕与OpenAI打官司。 DeepSeek的数据是从GPT偷来的? 目前并没有确凿证据。 微软的安全员观察到,疑似与DeepSeek有关联的个人使用了OpenAI的API接口窃取数据,但并未指明是DeepSeek官方行为。 大模型公司常从数据公司购买数据,数据公司可能从OpenAI等处"薅羊毛",但这并不意味着DeepSeek直接盗取了GPT的数据。 "薅羊毛"是行业内普遍现象,通过API接口收集用户问题和回答,并将其整理为训练数据出售。(去年很多免费提供ChatGPT的平台,看来都是"薅羊毛"的) R1为什么有时会说自己是GPT? 主要原因是训练数据中可能包含来自GPT的标签 或者是互联网上存在AI生成的内容,被模型抓取并输出。 R1是国运级别的成果吗? 不恰当,甚至会害了Deepseek 梁文峰认为,创新应尽可能减少干预和管理,让每个人自由发挥,创新是自己生长出来的,而非可以计划或安排的。 过分强调R1的国运意义或将其视为武器,会对DeepSeek的创新发展产生负面影响。 R1模型的创新之处究竟在哪里? 核心:在微调阶段引入不依赖监督微调的强化学习,使得微调后的模型性能大幅增长。 传统微调方法可能会降低模型性能,而R1通过直接强化学习,避免了奖励模型带来的评判标准割裂问题。 R1的微调方法类似学生通过大量练习自己总结规律,而不是依赖老师的讲解。 R1在微调阶段需要更多的算力,但带来的性能提升远超传统方法。 R1的微调思想与AlphaGo Zero类似,都是通过自我学习和迭代来提升性能。 另外, DeepSeek在V2和V3版本中采用了多种降低成本、提高计算卡利用率的技术。技术包括Multi-Token Prediction、FP8混合精度、DualPipe等。 R1 与AlphaGo Zero的共性 方法论相似 - 🧠 自我学习机制:不依赖人工标注数据 - ♟️ 迭代优化路径:多轮次自我进化 - 🏆 奖励驱动:简化但明确的评估标准 - 🚀 创新突破性:突破传统方法天花板 实现差异 - 🤖 数据生成方式:R1通过候选答案筛选 vs AlphaGo自我对弈 - 🎯 应用领域:NLP复杂任务 vs 围棋规则明确场景 - ⚙️ 技术复杂度:语言模型需处理开放域问题

0/200

评论 0

暂无更多评论