根据纳瓦尔引用MATT MCDONAGH的一篇夸Deepseek的文章。 用Gemini flash thinking 01-21,模仿 Mark mason粗口风格重写,别有一番风味 哈哈哈! AI 领域刚TM发生了一件大事,别怪我没提醒你 好吧,我本来不想显得大惊小怪,或者像个标题党… 但TMD,AI 领域(以及真实世界)刚刚发生的事儿,真他妈的要改写人类发展剧本了。 我发誓要冷静点儿 😔 (好吧,我尽力了) 但没办法,真的忍不住啊。 2025 年 1 月 22 日,DeepSeek 这帮家伙扔出了一篇论文,题目是《DeepSeek-R1:通过强化学习TM的激励 LLM 的推理能力》。 游戏规则TM的真变了。 不是因为他们跑分有多牛逼——虽然那确实野到没边了。 甚至也不是因为他们的训练成本跟模型性能比起来,简直便宜到离谱—— 虽然这已经够让人震惊了,简直就是TM的杠杆效应。 不,真正让整个行业都震了一下子的是,DeepSeek 到底是怎么做到这一点的。 我们居然可以 TM 培养 通用推理这种智能。 DeepSeek-R1-Zero 直接在一个基础模型上用强化学习搞训练,压根没用什么狗屁监督微调(SFT),这跟以前那些老套路完全不一样。 这种新搞法,模型就能自己去探索什么“思维链”(CoT)推理,还能搞出什么自我验证、自我反思这些花里胡哨的能力。 这意味着啥? 推理能力这玩意儿,可以用强化学习(RL)来激励,根本不用死乞白赖地依赖那些监督数据。 要是你还没觉得牛逼,再读一遍,好好品品。 (稍后我们再来扯淡这玩意儿的影响。) 这些模型展现了一种自我进化的过程,通过强化学习(RL),它们自然而然地增加了思考时间,还TM发展出了各种复杂的推理行为…… DeepSeek-R1-Zero 的某个中间版本甚至出现了“顿悟时刻”,这模型学会了重新评估自己一开始的路子, 这TM就显示出强化学习(RL)有多牛逼了,能搞出那些意想不到的、骚操作级别的问题解决策略。 这凸显了强化学习(RL)的潜力,它能让模型自主发现解决问题的套路。 就像小孩儿一样学习,然后变成一个更TM更TM聪明的成年模型。 DeepSeek-R1 还TM加入了什么冷启动数据和多阶段训练,进一步增强推理性能。 这模型先是用高质量、长篇大论的“思维链”(CoT)例子搞了一波微调,然后再进行强化学习(RL),结果可读性和性能都TM上去了。 这说明啥? 说明精心设计的训练流程,把监督微调(SFT)和强化学习结合起来,就能搞出既牛逼又好用的模型。 DeepSeek 的研究表明,大模型搞出来的那些推理模式,可以成功地被提炼到小模型里。 他们用 DeepSeek-R1 搞出来的数据,微调了一些开源模型,比如 Qwen 和 Llama,就搞定了。 这意味着,大模型的推理能力可以转移到更小、更高效的模型上,这对实际应用来说,非常重要。 DeepSeek 的研究地表明,LLM 真TM 可以通过强化学习,自然发展出通用推理能力。 自我进化过程,以及训练中冒出来的那些复杂行为,突出了模型自主学习和TM精进问题解决策略的潜力。 就算你是个“美国优先”的拥趸,天天担心中国在关键领域超车,DeepSeek 的研究成果也TM意义重大,因为它为人工智能的未来发展指明了一条充满希望的路子。 他们搞不好已经TM指出了通往 AGI 的路。 有人说,DeepSeek 不过是消化了 OpenAI 的模型,然后用更少的成本,复制了他们的智能,以及人类参与强化的那些好处。 你也可以说,OpenAI 为了搞 ChatGPT ,TM爬遍了互联网,现在 DeepSeek 又TM爬了 ChatGPT。 一切都是公平的,对吧? 根据论文,DeepSeek-R1 的训练过程分了好几个阶段,每个阶段都TM是为了增强模型推理能力的不同方面。 它TM建立在 DeepSeek-R1-Zero 的基础上,后者本身就用了一种全新的、从头开始的训练方法(名字都TM告诉你了),然后再进一步优化,才搞出了最终的 DeepSeek-R1 模型。 最初阶段,重点是纯粹的强化学习(RL),没有任何监督微调(SFT)。 据说,基础模型是 DeepSeek-V3-Base。 他们用的强化学习算法是“群体相对策略优化”(GRPO)。 GRPO 从群体得分中估计基线,而不是用单独的评价模型。 很多研究人员都TM用这招。 他们还搞了个基于规则的奖励系统,重点关注准确性和格式。 模型要是能用特定格式给出正确答案,就能获得奖励,包括把思考过程放到 <think> 和 </think> 标签里。 模型用了一个简单的模板进行训练,要求它先搞出推理过程,然后再给出最终答案,没有特定内容偏见。 这种纯强化学习过程的结果是啥? 结果就是模型在解决复杂推理任务时的能力TM提升了,还TM具备了自我验证、反思以及生成长链思维(CoT)等骚操作。 但是,DeepSeek-R1-Zero 也TM出现了一些问题,比如可读性差,语言混乱—— 搞这玩意儿真TM不容易! 为了解决 DeepSeek-R1-Zero 的问题,进一步提升推理性能,他们为 DeepSeek-R1 开发了一个多阶段训练流程。 这里的关键词是“冷启动”。 在应用强化学习之前,他们收集了数千个长链思维(CoT)例子,用来微调基础模型 DeepSeek-V3-Base。 这跟 DeepSeek-R1-Zero 直接从基础模型开始搞,完全不一样。 这些例子被设计成方便人类阅读,还包含了推理结果的摘要。 冷启动之后,模型进行了大规模强化学习,跟 DeepSeek-R1-Zero 用的过程差不多。 重点是增强编码、数学、科学和逻辑推理等领域的推理能力。 他们还TM引入了语言一致性奖励,以减少语言混合,尽管这稍微降低了模型的性能。 一旦面向推理的强化学习收敛了,就用检查点来创建新的监督微调数据。 这包括通过拒绝采样生成的推理数据,以及来自其他领域(如写作、事实问答和自我认知)的额外数据。 他们还过滤掉了包含语言混合、长段落或代码块的数据。 这提高了结果质量,还减少了思考时间。 模型又经历了第二个强化学习阶段,目的是提高其帮助性和无害性,并优化推理能力。 这个过程用了多样化的提示,以及结合基于规则的奖励(用于推理任务)和奖励模型(用于通用数据)。 为了把 DeepSeek-R1 的推理能力转移到更小、更高效的模型上, 他们用了来自 DeepSeek-R1 的精选数据,微调了几个开源模型,比如 Qwen 和 Llama。 这个过程只用了监督微调(SFT),没有任何额外的强化学习,就是为了展示蒸馏的有效性。 结果,蒸馏后的模型表现令人印象深刻,较小的模型在推理基准测试中超过了其他开源模型。 总结一下 → DeepSeek-R1 的训练过程是一个多阶段过程 先是用纯强化学习(RL)方法建立推理能力 然后通过高质量数据进行冷启动 接着通过 RL 和 SFT 进一步优化,最后通过蒸馏将这些推理能力转移到较小的模型中。 这种技术组合搞出来的模型,在各种推理任务上的表现,跟 OpenAI-o1-1217(写这篇文章的时候最尖端的技术)有一拼。 DeepSeek-R1 从纯粹的强化学习(RL)开始,在没有初始监督微调(SFT)的情况下,就TM发展出了推理能力,这TM是开创性的。 这表明,LLM 有一种更自然、可能更强大的学习方式,类似于人类通过探索和与环境互动来获取知识。 通过将强化学习(RL)与监督微调(SFT)和蒸馏技术相结合。 DeepSeek-R1 实现了与 OpenAI 等尖端模型相媲美的性能,而且可能只需要它们训练成本的一小部分。 这TM可能会普及先进人工智能的使用,使其对研究人员、开发者及小型组织而言,更加经济实惠,更容易TM搞到手。 基于 RL 的训练可以带来更透明的推理过程。 模型学会一步一步地“思考”,使其决策比传统的黑箱 LLM 更容易理解和信任。 而且,DeepSeek 团队还有更多“燃料”,可以尝试用这种架构达到 AGI 的速度。 自然生长的智能,可能使 LLM 更有效地适应新情况和新任务。 它们可以从错误中学习,并持续改进性能,而不完全依赖预定义的数据集。 简单来说,这就是为什么这件事很重要: 想象一下教小孩骑自行车。 你可以给他们一本详细的手册(SFT),但他们很可能通过自己尝试(RL)、摔倒、爬起来,然后慢慢进步,学得更好。 DeepSeek-R1 的训练过程也差不多——它允许 LLM 通过“边做边学”来发展自己的推理能力,从而形成更强大、适应性更强的智能。 这种方法可能彻底改变人工智能领域,带来更强大、高效和值得信赖的 LLM,可以用于更广泛的应用。 这就是通往 AGI 的道路。