#GPU

4个月前
6万张显卡之谜:一文看懂DeepSeek的真实算力 今天读卓克讲Deepseek的三篇文章,AI总结做些笔记。 Deepseek到底有多少张H100显卡? 坊间传闻中DeepSeek拥有5万张H100计算卡。 但实际上,DeepSeek的计算卡主要由上一代卡和阉割版本的卡组成。 据Semianalysis分析,DeepSeek大约有6万张卡。 包括A100、H800、H100各1万张,以及3万张H20。 Semianalysis用四大维度推算的: 1️⃣ 英伟达芯片产能 & 美国出口记录 2️⃣ 服务器采购成本逆向推算 3️⃣ 技术文档反推模型算力需求 4️⃣ 母公司投资能力评估 💡 关键结论: • 总芯片6万张,但实际算力仅≈1.95万张H100水平 • 受出口管制影响,低算力H20芯片占比达50% DeepSeek的训练成本仅为600万美元? 说法有误导性。 这仅仅是DeepSeek自己公布的V3模型预训练费用:数据费用 + H800 GPU运行费用。 实际总花费远高于此,包括购买GPU的7亿美元、搭建服务器的9亿美元,以及四年运营成本9.44亿美元,总计约26亿美元。 将600万美元作为DeepSeek的训练成本会严重低估实际投入,让人误以为大语言模型开发的门槛很低。 DeepSeek R1 是从GPT的模型里蒸馏出来的吗? 不是从GPT的模型里蒸馏出来的。 Perplexity的CEO和Stable Diffusion的创始人都明确表示R1不是抄袭或蒸馏。 开源社区(GitHub)也普遍认为R1不是蒸馏出来的。 DeepSeek持续提交大语言模型的不同版本,且都是MIT协议,允许使用者随意使用和修改。 多家公司复现R1模型,包括Hugging Face, Perplexity, 英伟达等,进一步证明了R1并非来自GPT模型的蒸馏:如果R1是蒸馏来的,这些公司不可能在短时间内商用,并且不怕与OpenAI打官司。 DeepSeek的数据是从GPT偷来的? 目前并没有确凿证据。 微软的安全员观察到,疑似与DeepSeek有关联的个人使用了OpenAI的API接口窃取数据,但并未指明是DeepSeek官方行为。 大模型公司常从数据公司购买数据,数据公司可能从OpenAI等处"薅羊毛",但这并不意味着DeepSeek直接盗取了GPT的数据。 "薅羊毛"是行业内普遍现象,通过API接口收集用户问题和回答,并将其整理为训练数据出售。(去年很多免费提供ChatGPT的平台,看来都是"薅羊毛"的) R1为什么有时会说自己是GPT? 主要原因是训练数据中可能包含来自GPT的标签 或者是互联网上存在AI生成的内容,被模型抓取并输出。 R1是国运级别的成果吗? 不恰当,甚至会害了Deepseek 梁文峰认为,创新应尽可能减少干预和管理,让每个人自由发挥,创新是自己生长出来的,而非可以计划或安排的。 过分强调R1的国运意义或将其视为武器,会对DeepSeek的创新发展产生负面影响。 R1模型的创新之处究竟在哪里? 核心:在微调阶段引入不依赖监督微调的强化学习,使得微调后的模型性能大幅增长。 传统微调方法可能会降低模型性能,而R1通过直接强化学习,避免了奖励模型带来的评判标准割裂问题。 R1的微调方法类似学生通过大量练习自己总结规律,而不是依赖老师的讲解。 R1在微调阶段需要更多的算力,但带来的性能提升远超传统方法。 R1的微调思想与AlphaGo Zero类似,都是通过自我学习和迭代来提升性能。 另外, DeepSeek在V2和V3版本中采用了多种降低成本、提高计算卡利用率的技术。技术包括Multi-Token Prediction、FP8混合精度、DualPipe等。 R1 与AlphaGo Zero的共性 方法论相似 - 🧠 自我学习机制:不依赖人工标注数据 - ♟️ 迭代优化路径:多轮次自我进化 - 🏆 奖励驱动:简化但明确的评估标准 - 🚀 创新突破性:突破传统方法天花板 实现差异 - 🤖 数据生成方式:R1通过候选答案筛选 vs AlphaGo自我对弈 - 🎯 应用领域:NLP复杂任务 vs 围棋规则明确场景 - ⚙️ 技术复杂度:语言模型需处理开放域问题
5个月前
芯片数据摸底还得靠 SemiAnalysis!今天最新这篇提到了 DeepSeek 拥有的 GPU 数量不是某些人声称的 50,000 个 H100,而是 10,000 个 H800 和约 10,000 个 H100,剩下 30,000 左右的 H20,这是 Nvidia 在出口管制法案之后为中国市场定制的。 SemiAnalysis 的分析表明,DeepSeek 的服务器 CapEx 总额接近 13 亿美元,这些 GPU 由 High-Flyer 和 DeepSeek 共享,它们被用于交易、推理、训练和研究! 文章中最有趣的观点就是 AI 模型产业与芯片产业的类比,就像在最新一期的 Indigo Talk 中提到的 - 大模型正在商品化,与芯片制造工艺迭代逻辑类似。 1. 前沿能力带来超额利润 - 在芯片产业里,最先进制程(比如台积电领先的 3nm、2nm)往往拥有高额的毛利率。做“落后一代制程”的代工厂只能打价格战; - 在大模型市场,“前沿水平的推理/生成能力” 同样可以定更高的价格,为早期付费用户提供独家或高质量服务,进而获得溢价; 2. 快速迭代与淘汰 - 芯片工艺每一代很快就更新,AI 模型同理,更新迭代速度越来越快 —— 谁能最先推出下一代“推理/思考”能力,谁就能够暂时占领高端市场; - 同时,过往一代的技术不会立即消失,会在某些场景继续存在,但利润和售价往往走低,与新一代“前沿能力”拉开差距; 3. 规模、效率与摩尔定律 / 算力扩张的矛盾 - 芯片制造商要通过更精细的工艺(规模效应)推动晶体管数量的指数增长。但越是先进制程,研发与设备投入越是惊人; - AI 模型也在追求“更大规模”与“更高效率”的矛盾:一方面大家想训练更大的模型来突破能力上限,另一方面也在积极提升训练/推理效率、降低成本; - Jevons 悖论:当每次训练或推理变得更便宜时,模型推理调用量会激增,总体算力需求反而上升(如同手机、云计算普及后算力需求的爆炸式增长)。 4. 技术领先者的地位与盈利 - 芯片代工龙头(TSMC)之所以能持续保持高盈利,在于其维持了对下一代工艺节点的快速投入和良率领先,使竞争对手短期很难追上; - 大模型赛道里,OpenAI、Google、Anthropic、Meta 等会通过持续大规模资金投入在新一轮“算法+算力”中领先。如果哪家公司短暂落后,就必须以降价或开放等策略跟进; 因此,AI 模型的商业化进程很可能出现类似芯片产业的“前沿与追随”并存格局: - “前沿模型” 依靠新一代推理能力赚取高额利润; - “追随模型” 则以相对较低价格抢占中低端或更多场景市场; - 双方都持续增长对算力(GPU 等硬件)的需求,进一步刺激芯片企业的发展。 最后总结下对 Nvidia 的影响: - 短期内:DeepSeek 等高效模型的出现非但不会削弱 GPU 需求,反而加剧争抢,Nvidia 的 H100/H200 价格和市场需求高企; - 中长期:前沿模型升级与新一轮“能力竞赛”将继续扩大整体算力需求,Jevons 悖论带动 GPU 采购量不降反升,维系甚至增进 Nvidia 在 AI 训练/推理硬件领域的盈利地位; - 只要有足够的前沿芯片投入市场,在短期内很难被其它产品或自研 ASIC、国内 GPU 芯片替代,Nvidia 将保持对 AI 训练/推理硬件市场的统治地位; - 出口管制对中国买家采购 Nvidia 高性能芯片会带来一定阻力,但市场仍会尽可能在政策缝隙中购入高端硬件,或转向 Nvidia 专为中国市场推出的“缩水版”高端产品,整体需求依旧旺盛; 从 Semianalysis 这篇报道的观点出发,高效 AI 模型并不会让 Nvidia 的市场萎缩,反而更可能助推 Nvidia 的先进 GPU 需求和全球出货量持续上行。