6万张显卡之谜：一文看懂DeepSeek- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

6万张显卡之谜：一文看懂DeepSeek的真实算力今天读卓克讲Deepseek的三篇文章，AI总结做些笔记。 Deepseek到底有多少张H100显卡？坊间传闻中DeepSeek拥有5万张H100计算卡。但实际上，DeepSeek的计算卡主要由上一代卡和阉割版本的卡组成。据Semianalysis分析，DeepSeek大约有6万张卡。包括A100、H800、H100各1万张，以及3万张H20。 Semianalysis用四大维度推算的： 1️⃣ 英伟达芯片产能 & 美国出口记录 2️⃣ 服务器采购成本逆向推算 3️⃣ 技术文档反推模型算力需求 4️⃣ 母公司投资能力评估 💡 关键结论： • 总芯片6万张，但实际算力仅≈1.95万张H100水平 • 受出口管制影响，低算力H20芯片占比达50% DeepSeek的训练成本仅为600万美元？说法有误导性。这仅仅是DeepSeek自己公布的V3模型预训练费用：数据费用 + H800 GPU运行费用。实际总花费远高于此，包括购买GPU的7亿美元、搭建服务器的9亿美元，以及四年运营成本9.44亿美元，总计约26亿美元。将600万美元作为DeepSeek的训练成本会严重低估实际投入，让人误以为大语言模型开发的门槛很低。 DeepSeek R1 是从GPT的模型里蒸馏出来的吗？不是从GPT的模型里蒸馏出来的。 Perplexity的CEO和Stable Diffusion的创始人都明确表示R1不是抄袭或蒸馏。开源社区（GitHub）也普遍认为R1不是蒸馏出来的。 DeepSeek持续提交大语言模型的不同版本，且都是MIT协议，允许使用者随意使用和修改。多家公司复现R1模型，包括Hugging Face, Perplexity, 英伟达等，进一步证明了R1并非来自GPT模型的蒸馏：如果R1是蒸馏来的，这些公司不可能在短时间内商用，并且不怕与OpenAI打官司。 DeepSeek的数据是从GPT偷来的？目前并没有确凿证据。微软的安全员观察到，疑似与DeepSeek有关联的个人使用了OpenAI的API接口窃取数据，但并未指明是DeepSeek官方行为。大模型公司常从数据公司购买数据，数据公司可能从OpenAI等处"薅羊毛"，但这并不意味着DeepSeek直接盗取了GPT的数据。 "薅羊毛"是行业内普遍现象，通过API接口收集用户问题和回答，并将其整理为训练数据出售。（去年很多免费提供ChatGPT的平台，看来都是"薅羊毛"的） R1为什么有时会说自己是GPT？主要原因是训练数据中可能包含来自GPT的标签或者是互联网上存在AI生成的内容，被模型抓取并输出。 R1是国运级别的成果吗？不恰当，甚至会害了Deepseek 梁文峰认为，创新应尽可能减少干预和管理，让每个人自由发挥，创新是自己生长出来的，而非可以计划或安排的。过分强调R1的国运意义或将其视为武器，会对DeepSeek的创新发展产生负面影响。 R1模型的创新之处究竟在哪里？核心：在微调阶段引入不依赖监督微调的强化学习，使得微调后的模型性能大幅增长。传统微调方法可能会降低模型性能，而R1通过直接强化学习，避免了奖励模型带来的评判标准割裂问题。 R1的微调方法类似学生通过大量练习自己总结规律，而不是依赖老师的讲解。 R1在微调阶段需要更多的算力，但带来的性能提升远超传统方法。 R1的微调思想与AlphaGo Zero类似，都是通过自我学习和迭代来提升性能。另外， DeepSeek在V2和V3版本中采用了多种降低成本、提高计算卡利用率的技术。技术包括Multi-Token Prediction、FP8混合精度、DualPipe等。 R1 与AlphaGo Zero的共性方法论相似 - 🧠 自我学习机制：不依赖人工标注数据 - ♟️ 迭代优化路径：多轮次自我进化 - 🏆 奖励驱动：简化但明确的评估标准 - 🚀 创新突破性：突破传统方法天花板实现差异 - 🤖 数据生成方式：R1通过候选答案筛选 vs AlphaGo自我对弈 - 🎯 应用领域：NLP复杂任务 vs 围棋规则明确场景 - ⚙️ 技术复杂度：语言模型需处理开放域问题

相关新闻