向阳乔木
8个月前
6万张显卡之谜:一文看懂DeepSeek的真实算力 今天读卓克讲Deepseek的三篇文章,AI总结做些笔记。 Deepseek到底有多少张H100显卡? 坊间传闻中DeepSeek拥有5万张H100计算卡。 但实际上,DeepSeek的计算卡主要由上一代卡和阉割版本的卡组成。 据Semianalysis分析,DeepSeek大约有6万张卡。 包括A100、H800、H100各1万张,以及3万张H20。 Semianalysis用四大维度推算的: 1️⃣ 英伟达芯片产能 & 美国出口记录 2️⃣ 服务器采购成本逆向推算 3️⃣ 技术文档反推模型算力需求 4️⃣ 母公司投资能力评估 💡 关键结论: • 总芯片6万张,但实际算力仅≈1.95万张H100水平 • 受出口管制影响,低算力H20芯片占比达50% DeepSeek的训练成本仅为600万美元? 说法有误导性。 这仅仅是DeepSeek自己公布的V3模型预训练费用:数据费用 + H800 GPU运行费用。 实际总花费远高于此,包括购买GPU的7亿美元、搭建服务器的9亿美元,以及四年运营成本9.44亿美元,总计约26亿美元。 将600万美元作为DeepSeek的训练成本会严重低估实际投入,让人误以为大语言模型开发的门槛很低。 DeepSeek R1 是从GPT的模型里蒸馏出来的吗? 不是从GPT的模型里蒸馏出来的。 Perplexity的CEO和Stable Diffusion的创始人都明确表示R1不是抄袭或蒸馏。 开源社区(GitHub)也普遍认为R1不是蒸馏出来的。 DeepSeek持续提交大语言模型的不同版本,且都是MIT协议,允许使用者随意使用和修改。 多家公司复现R1模型,包括Hugging Face, Perplexity, 英伟达等,进一步证明了R1并非来自GPT模型的蒸馏:如果R1是蒸馏来的,这些公司不可能在短时间内商用,并且不怕与OpenAI打官司。 DeepSeek的数据是从GPT偷来的? 目前并没有确凿证据。 微软的安全员观察到,疑似与DeepSeek有关联的个人使用了OpenAI的API接口窃取数据,但并未指明是DeepSeek官方行为。 大模型公司常从数据公司购买数据,数据公司可能从OpenAI等处"薅羊毛",但这并不意味着DeepSeek直接盗取了GPT的数据。 "薅羊毛"是行业内普遍现象,通过API接口收集用户问题和回答,并将其整理为训练数据出售。(去年很多免费提供ChatGPT的平台,看来都是"薅羊毛"的) R1为什么有时会说自己是GPT? 主要原因是训练数据中可能包含来自GPT的标签 或者是互联网上存在AI生成的内容,被模型抓取并输出。 R1是国运级别的成果吗? 不恰当,甚至会害了Deepseek 梁文峰认为,创新应尽可能减少干预和管理,让每个人自由发挥,创新是自己生长出来的,而非可以计划或安排的。 过分强调R1的国运意义或将其视为武器,会对DeepSeek的创新发展产生负面影响。 R1模型的创新之处究竟在哪里? 核心:在微调阶段引入不依赖监督微调的强化学习,使得微调后的模型性能大幅增长。 传统微调方法可能会降低模型性能,而R1通过直接强化学习,避免了奖励模型带来的评判标准割裂问题。 R1的微调方法类似学生通过大量练习自己总结规律,而不是依赖老师的讲解。 R1在微调阶段需要更多的算力,但带来的性能提升远超传统方法。 R1的微调思想与AlphaGo Zero类似,都是通过自我学习和迭代来提升性能。 另外, DeepSeek在V2和V3版本中采用了多种降低成本、提高计算卡利用率的技术。技术包括Multi-Token Prediction、FP8混合精度、DualPipe等。 R1 与AlphaGo Zero的共性 方法论相似 - 🧠 自我学习机制:不依赖人工标注数据 - ♟️ 迭代优化路径:多轮次自我进化 - 🏆 奖励驱动:简化但明确的评估标准 - 🚀 创新突破性:突破传统方法天花板 实现差异 - 🤖 数据生成方式:R1通过候选答案筛选 vs AlphaGo自我对弈 - 🎯 应用领域:NLP复杂任务 vs 围棋规则明确场景 - ⚙️ 技术复杂度:语言模型需处理开放域问题
向阳乔木
8个月前
向阳乔木
8个月前
投资主题阅读群第二本推荐的书是《会走路的钱》,今天断续读了几章,不少观点很有意思: 预测经济最准确的方式并不是研究复杂的经济指标,而是观察富人的投资行为。 这些人比普通人更敏锐地感知未来的走向,因为他们有更大的利益驱动去深入思考。 当你想预测某个投资品未来的价值时,关键是要看未来的购买力在哪里。 你需要关注那些未来必须购买这项资产的人群,评估他们未来的财富增长潜力。 不要和有钱人拼体力,要和未来的有钱人混在一起,比他们早一步看到他们的需求。 不要投资年轻人不感兴趣的标的。 核心是要盯着年轻人看未来的机会,这不禁让我想现在的年轻人的需求是什么? 除了虚拟货币,有朋友提到:纸片人、谷子、黄金、养猫/养狗? 感觉后续需要研究。 另外,书中提到:房地产市场通常滞后于股市6到12个月,最佳买入时机往往不是在底部,而是在确认上涨趋势后,大约在上涨5%左右的时候。 一定要投资,不要单纯的储蓄,单纯的储蓄策略往往会让财富缩水。 书中提到的中年职业危机,确实存在: 三到五年工作经验的人最受欢迎,因为他们已经具备了基本技能,但还没有形成固化的思维模式。超过五年的经验往往会遇到边际效用递减的问题。 书中关于幸福感的说法也比较认同:幸福感不在于当前拥有多少财富,而在于对未来的期待程度。自我实现是最高级别的快乐。 无论是家庭关系还是企业管理,都需要一个清晰的"愿景"来调动积极性。 这就像CEO需要给员工画出美好蓝图一样,家庭成员之间也需要共同的期待。 --- 继续读这本书,感觉实操性很强,虽然作者的不少做法很极端。
向阳乔木
8个月前
根据纳瓦尔引用MATT MCDONAGH的一篇夸Deepseek的文章。 用Gemini flash thinking 01-21,模仿 Mark mason粗口风格重写,别有一番风味 哈哈哈! AI 领域刚TM发生了一件大事,别怪我没提醒你 好吧,我本来不想显得大惊小怪,或者像个标题党… 但TMD,AI 领域(以及真实世界)刚刚发生的事儿,真他妈的要改写人类发展剧本了。 我发誓要冷静点儿 😔 (好吧,我尽力了) 但没办法,真的忍不住啊。 2025 年 1 月 22 日,DeepSeek 这帮家伙扔出了一篇论文,题目是《DeepSeek-R1:通过强化学习TM的激励 LLM 的推理能力》。 游戏规则TM的真变了。 不是因为他们跑分有多牛逼——虽然那确实野到没边了。 甚至也不是因为他们的训练成本跟模型性能比起来,简直便宜到离谱—— 虽然这已经够让人震惊了,简直就是TM的杠杆效应。 不,真正让整个行业都震了一下子的是,DeepSeek 到底是怎么做到这一点的。 我们居然可以 TM 培养 通用推理这种智能。 DeepSeek-R1-Zero 直接在一个基础模型上用强化学习搞训练,压根没用什么狗屁监督微调(SFT),这跟以前那些老套路完全不一样。 这种新搞法,模型就能自己去探索什么“思维链”(CoT)推理,还能搞出什么自我验证、自我反思这些花里胡哨的能力。 这意味着啥? 推理能力这玩意儿,可以用强化学习(RL)来激励,根本不用死乞白赖地依赖那些监督数据。 要是你还没觉得牛逼,再读一遍,好好品品。 (稍后我们再来扯淡这玩意儿的影响。) 这些模型展现了一种自我进化的过程,通过强化学习(RL),它们自然而然地增加了思考时间,还TM发展出了各种复杂的推理行为…… DeepSeek-R1-Zero 的某个中间版本甚至出现了“顿悟时刻”,这模型学会了重新评估自己一开始的路子, 这TM就显示出强化学习(RL)有多牛逼了,能搞出那些意想不到的、骚操作级别的问题解决策略。 这凸显了强化学习(RL)的潜力,它能让模型自主发现解决问题的套路。 就像小孩儿一样学习,然后变成一个更TM更TM聪明的成年模型。 DeepSeek-R1 还TM加入了什么冷启动数据和多阶段训练,进一步增强推理性能。 这模型先是用高质量、长篇大论的“思维链”(CoT)例子搞了一波微调,然后再进行强化学习(RL),结果可读性和性能都TM上去了。 这说明啥? 说明精心设计的训练流程,把监督微调(SFT)和强化学习结合起来,就能搞出既牛逼又好用的模型。 DeepSeek 的研究表明,大模型搞出来的那些推理模式,可以成功地被提炼到小模型里。 他们用 DeepSeek-R1 搞出来的数据,微调了一些开源模型,比如 Qwen 和 Llama,就搞定了。 这意味着,大模型的推理能力可以转移到更小、更高效的模型上,这对实际应用来说,非常重要。 DeepSeek 的研究地表明,LLM 真TM 可以通过强化学习,自然发展出通用推理能力。 自我进化过程,以及训练中冒出来的那些复杂行为,突出了模型自主学习和TM精进问题解决策略的潜力。 就算你是个“美国优先”的拥趸,天天担心中国在关键领域超车,DeepSeek 的研究成果也TM意义重大,因为它为人工智能的未来发展指明了一条充满希望的路子。 他们搞不好已经TM指出了通往 AGI 的路。 有人说,DeepSeek 不过是消化了 OpenAI 的模型,然后用更少的成本,复制了他们的智能,以及人类参与强化的那些好处。 你也可以说,OpenAI 为了搞 ChatGPT ,TM爬遍了互联网,现在 DeepSeek 又TM爬了 ChatGPT。 一切都是公平的,对吧? 根据论文,DeepSeek-R1 的训练过程分了好几个阶段,每个阶段都TM是为了增强模型推理能力的不同方面。 它TM建立在 DeepSeek-R1-Zero 的基础上,后者本身就用了一种全新的、从头开始的训练方法(名字都TM告诉你了),然后再进一步优化,才搞出了最终的 DeepSeek-R1 模型。 最初阶段,重点是纯粹的强化学习(RL),没有任何监督微调(SFT)。 据说,基础模型是 DeepSeek-V3-Base。 他们用的强化学习算法是“群体相对策略优化”(GRPO)。 GRPO 从群体得分中估计基线,而不是用单独的评价模型。 很多研究人员都TM用这招。 他们还搞了个基于规则的奖励系统,重点关注准确性和格式。 模型要是能用特定格式给出正确答案,就能获得奖励,包括把思考过程放到 <think> 和 </think> 标签里。 模型用了一个简单的模板进行训练,要求它先搞出推理过程,然后再给出最终答案,没有特定内容偏见。 这种纯强化学习过程的结果是啥? 结果就是模型在解决复杂推理任务时的能力TM提升了,还TM具备了自我验证、反思以及生成长链思维(CoT)等骚操作。 但是,DeepSeek-R1-Zero 也TM出现了一些问题,比如可读性差,语言混乱—— 搞这玩意儿真TM不容易! 为了解决 DeepSeek-R1-Zero 的问题,进一步提升推理性能,他们为 DeepSeek-R1 开发了一个多阶段训练流程。 这里的关键词是“冷启动”。 在应用强化学习之前,他们收集了数千个长链思维(CoT)例子,用来微调基础模型 DeepSeek-V3-Base。 这跟 DeepSeek-R1-Zero 直接从基础模型开始搞,完全不一样。 这些例子被设计成方便人类阅读,还包含了推理结果的摘要。 冷启动之后,模型进行了大规模强化学习,跟 DeepSeek-R1-Zero 用的过程差不多。 重点是增强编码、数学、科学和逻辑推理等领域的推理能力。 他们还TM引入了语言一致性奖励,以减少语言混合,尽管这稍微降低了模型的性能。 一旦面向推理的强化学习收敛了,就用检查点来创建新的监督微调数据。 这包括通过拒绝采样生成的推理数据,以及来自其他领域(如写作、事实问答和自我认知)的额外数据。 他们还过滤掉了包含语言混合、长段落或代码块的数据。 这提高了结果质量,还减少了思考时间。 模型又经历了第二个强化学习阶段,目的是提高其帮助性和无害性,并优化推理能力。 这个过程用了多样化的提示,以及结合基于规则的奖励(用于推理任务)和奖励模型(用于通用数据)。 为了把 DeepSeek-R1 的推理能力转移到更小、更高效的模型上, 他们用了来自 DeepSeek-R1 的精选数据,微调了几个开源模型,比如 Qwen 和 Llama。 这个过程只用了监督微调(SFT),没有任何额外的强化学习,就是为了展示蒸馏的有效性。 结果,蒸馏后的模型表现令人印象深刻,较小的模型在推理基准测试中超过了其他开源模型。 总结一下 → DeepSeek-R1 的训练过程是一个多阶段过程 先是用纯强化学习(RL)方法建立推理能力 然后通过高质量数据进行冷启动 接着通过 RL 和 SFT 进一步优化,最后通过蒸馏将这些推理能力转移到较小的模型中。 这种技术组合搞出来的模型,在各种推理任务上的表现,跟 OpenAI-o1-1217(写这篇文章的时候最尖端的技术)有一拼。 DeepSeek-R1 从纯粹的强化学习(RL)开始,在没有初始监督微调(SFT)的情况下,就TM发展出了推理能力,这TM是开创性的。 这表明,LLM 有一种更自然、可能更强大的学习方式,类似于人类通过探索和与环境互动来获取知识。 通过将强化学习(RL)与监督微调(SFT)和蒸馏技术相结合。 DeepSeek-R1 实现了与 OpenAI 等尖端模型相媲美的性能,而且可能只需要它们训练成本的一小部分。 这TM可能会普及先进人工智能的使用,使其对研究人员、开发者及小型组织而言,更加经济实惠,更容易TM搞到手。 基于 RL 的训练可以带来更透明的推理过程。 模型学会一步一步地“思考”,使其决策比传统的黑箱 LLM 更容易理解和信任。 而且,DeepSeek 团队还有更多“燃料”,可以尝试用这种架构达到 AGI 的速度。 自然生长的智能,可能使 LLM 更有效地适应新情况和新任务。 它们可以从错误中学习,并持续改进性能,而不完全依赖预定义的数据集。 简单来说,这就是为什么这件事很重要: 想象一下教小孩骑自行车。 你可以给他们一本详细的手册(SFT),但他们很可能通过自己尝试(RL)、摔倒、爬起来,然后慢慢进步,学得更好。 DeepSeek-R1 的训练过程也差不多——它允许 LLM 通过“边做边学”来发展自己的推理能力,从而形成更强大、适应性更强的智能。 这种方法可能彻底改变人工智能领域,带来更强大、高效和值得信赖的 LLM,可以用于更广泛的应用。 这就是通往 AGI 的道路。
向阳乔木
8个月前