根据纳瓦尔引用MATT MCDONAGH的一篇夸Deepseek的文章。
用Gemini flash thinking 01-21,模仿 Mark mason粗口风格重写,别有一番风味 哈哈哈!
AI 领域刚TM发生了一件大事,别怪我没提醒你
好吧,我本来不想显得大惊小怪,或者像个标题党… 但TMD,AI 领域(以及真实世界)刚刚发生的事儿,真他妈的要改写人类发展剧本了。
我发誓要冷静点儿
根据纳瓦尔引用MATT MCDONAGH的一篇夸Deepseek的文章。
用Gemini flash thinking 01-21,模仿 Mark mason粗口风格重写,别有一番风味 哈哈哈!
AI 领域刚TM发生了一件大事,别怪我没提醒你
好吧,我本来不想显得大惊小怪,或者像个标题党… 但TMD,AI 领域(以及真实世界)刚刚发生的事儿,真他妈的要改写人类发展剧本了。
我发誓要冷静点儿 😔 (好吧,我尽力了)
但没办法,真的忍不住啊。
2025 年 1 月 22 日,DeepSeek 这帮家伙扔出了一篇论文,题目是《DeepSeek-R1:通过强化学习TM的激励 LLM 的推理能力》。 游戏规则TM的真变了。
不是因为他们跑分有多牛逼——虽然那确实野到没边了。
甚至也不是因为他们的训练成本跟模型性能比起来,简直便宜到离谱—— 虽然这已经够让人震惊了,简直就是TM的杠杆效应。
不,真正让整个行业都震了一下子的是,DeepSeek 到底是怎么做到这一点的。
我们居然可以 TM 培养 通用推理这种智能。
DeepSeek-R1-Zero 直接在一个基础模型上用强化学习搞训练,压根没用什么狗屁监督微调(SFT),这跟以前那些老套路完全不一样。
这种新搞法,模型就能自己去探索什么“思维链”(CoT)推理,还能搞出什么自我验证、自我反思这些花里胡哨的能力。
这意味着啥? 推理能力这玩意儿,可以用强化学习(RL)来激励,根本不用死乞白赖地依赖那些监督数据。 要是你还没觉得牛逼,再读一遍,好好品品。
(稍后我们再来扯淡这玩意儿的影响。)
这些模型展现了一种自我进化的过程,通过强化学习(RL),它们自然而然地增加了思考时间,还TM发展出了各种复杂的推理行为……
DeepSeek-R1-Zero 的某个中间版本甚至出现了“顿悟时刻”,这模型学会了重新评估自己一开始的路子, 这TM就显示出强化学习(RL)有多牛逼了,能搞出那些意想不到的、骚操作级别的问题解决策略。
这凸显了强化学习(RL)的潜力,它能让模型自主发现解决问题的套路。
就像小孩儿一样学习,然后变成一个更TM更TM聪明的成年模型。
DeepSeek-R1 还TM加入了什么冷启动数据和多阶段训练,进一步增强推理性能。
这模型先是用高质量、长篇大论的“思维链”(CoT)例子搞了一波微调,然后再进行强化学习(RL),结果可读性和性能都TM上去了。
这说明啥? 说明精心设计的训练流程,把监督微调(SFT)和强化学习结合起来,就能搞出既牛逼又好用的模型。
DeepSeek 的研究表明,大模型搞出来的那些推理模式,可以成功地被提炼到小模型里。
他们用 DeepSeek-R1 搞出来的数据,微调了一些开源模型,比如 Qwen 和 Llama,就搞定了。
这意味着,大模型的推理能力可以转移到更小、更高效的模型上,这对实际应用来说,非常重要。
DeepSeek 的研究地表明,LLM 真TM 可以通过强化学习,自然发展出通用推理能力。
自我进化过程,以及训练中冒出来的那些复杂行为,突出了模型自主学习和TM精进问题解决策略的潜力。
就算你是个“美国优先”的拥趸,天天担心中国在关键领域超车,DeepSeek 的研究成果也TM意义重大,因为它为人工智能的未来发展指明了一条充满希望的路子。
他们搞不好已经TM指出了通往 AGI 的路。
有人说,DeepSeek 不过是消化了 OpenAI 的模型,然后用更少的成本,复制了他们的智能,以及人类参与强化的那些好处。
你也可以说,OpenAI 为了搞 ChatGPT ,TM爬遍了互联网,现在 DeepSeek 又TM爬了 ChatGPT。
一切都是公平的,对吧?
根据论文,DeepSeek-R1 的训练过程分了好几个阶段,每个阶段都TM是为了增强模型推理能力的不同方面。
它TM建立在 DeepSeek-R1-Zero 的基础上,后者本身就用了一种全新的、从头开始的训练方法(名字都TM告诉你了),然后再进一步优化,才搞出了最终的 DeepSeek-R1 模型。
最初阶段,重点是纯粹的强化学习(RL),没有任何监督微调(SFT)。
据说,基础模型是 DeepSeek-V3-Base。 他们用的强化学习算法是“群体相对策略优化”(GRPO)。
GRPO 从群体得分中估计基线,而不是用单独的评价模型。
很多研究人员都TM用这招。
他们还搞了个基于规则的奖励系统,重点关注准确性和格式。
模型要是能用特定格式给出正确答案,就能获得奖励,包括把思考过程放到 <think> 和 </think> 标签里。
模型用了一个简单的模板进行训练,要求它先搞出推理过程,然后再给出最终答案,没有特定内容偏见。
这种纯强化学习过程的结果是啥?
结果就是模型在解决复杂推理任务时的能力TM提升了,还TM具备了自我验证、反思以及生成长链思维(CoT)等骚操作。
但是,DeepSeek-R1-Zero 也TM出现了一些问题,比如可读性差,语言混乱—— 搞这玩意儿真TM不容易!
为了解决 DeepSeek-R1-Zero 的问题,进一步提升推理性能,他们为 DeepSeek-R1 开发了一个多阶段训练流程。
这里的关键词是“冷启动”。
在应用强化学习之前,他们收集了数千个长链思维(CoT)例子,用来微调基础模型 DeepSeek-V3-Base。
这跟 DeepSeek-R1-Zero 直接从基础模型开始搞,完全不一样。
这些例子被设计成方便人类阅读,还包含了推理结果的摘要。
冷启动之后,模型进行了大规模强化学习,跟 DeepSeek-R1-Zero 用的过程差不多。
重点是增强编码、数学、科学和逻辑推理等领域的推理能力。
他们还TM引入了语言一致性奖励,以减少语言混合,尽管这稍微降低了模型的性能。
一旦面向推理的强化学习收敛了,就用检查点来创建新的监督微调数据。
这包括通过拒绝采样生成的推理数据,以及来自其他领域(如写作、事实问答和自我认知)的额外数据。
他们还过滤掉了包含语言混合、长段落或代码块的数据。
这提高了结果质量,还减少了思考时间。
模型又经历了第二个强化学习阶段,目的是提高其帮助性和无害性,并优化推理能力。
这个过程用了多样化的提示,以及结合基于规则的奖励(用于推理任务)和奖励模型(用于通用数据)。
为了把 DeepSeek-R1 的推理能力转移到更小、更高效的模型上,
他们用了来自 DeepSeek-R1 的精选数据,微调了几个开源模型,比如 Qwen 和 Llama。
这个过程只用了监督微调(SFT),没有任何额外的强化学习,就是为了展示蒸馏的有效性。
结果,蒸馏后的模型表现令人印象深刻,较小的模型在推理基准测试中超过了其他开源模型。
总结一下 → DeepSeek-R1 的训练过程是一个多阶段过程
先是用纯强化学习(RL)方法建立推理能力
然后通过高质量数据进行冷启动
接着通过 RL 和 SFT 进一步优化,最后通过蒸馏将这些推理能力转移到较小的模型中。
这种技术组合搞出来的模型,在各种推理任务上的表现,跟 OpenAI-o1-1217(写这篇文章的时候最尖端的技术)有一拼。
DeepSeek-R1 从纯粹的强化学习(RL)开始,在没有初始监督微调(SFT)的情况下,就TM发展出了推理能力,这TM是开创性的。
这表明,LLM 有一种更自然、可能更强大的学习方式,类似于人类通过探索和与环境互动来获取知识。
通过将强化学习(RL)与监督微调(SFT)和蒸馏技术相结合。
DeepSeek-R1 实现了与 OpenAI 等尖端模型相媲美的性能,而且可能只需要它们训练成本的一小部分。
这TM可能会普及先进人工智能的使用,使其对研究人员、开发者及小型组织而言,更加经济实惠,更容易TM搞到手。
基于 RL 的训练可以带来更透明的推理过程。
模型学会一步一步地“思考”,使其决策比传统的黑箱 LLM 更容易理解和信任。
而且,DeepSeek 团队还有更多“燃料”,可以尝试用这种架构达到 AGI 的速度。
自然生长的智能,可能使 LLM 更有效地适应新情况和新任务。
它们可以从错误中学习,并持续改进性能,而不完全依赖预定义的数据集。
简单来说,这就是为什么这件事很重要:
想象一下教小孩骑自行车。 你可以给他们一本详细的手册(SFT),但他们很可能通过自己尝试(RL)、摔倒、爬起来,然后慢慢进步,学得更好。
DeepSeek-R1 的训练过程也差不多——它允许 LLM 通过“边做边学”来发展自己的推理能力,从而形成更强大、适应性更强的智能。
这种方法可能彻底改变人工智能领域,带来更强大、高效和值得信赖的 LLM,可以用于更广泛的应用。
这就是通往 AGI 的道路。