深度解析ChatGPT与DeepSeek- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

深度解析ChatGPT与DeepSeek R1：强化学习如何让大模型学会“思考”？ Andrej Karpathy 前几天发的“深度解析像 ChatGPT 的大语言模型“，实在是太长了点，我自己写的翻译软件一运行就崩溃，还要花点时间修复一下（很遗憾 AI 还搞不定），先挑了其中一节讲 DeepSeek R1 的翻译了一下，强化学习如何让大模型学会“思考”。像 GPT-4o 这种属于传统的预训练和监督微调（SFT）模型，而 o1，DeepSeek R1 这种则属于强化学习（RL）训练模型，能让模型自发地进行更复杂、更具创造力的推理。模型在不断迭代中学会自我回溯、多角度思考，输出更完整的解题过程。 Andrej 对 DeepSeek R1 评价不错，虽然 OpenAI 是首先实现了 RLFT，但DeepSeek R1更公开透明，带来可复现的研究细节，权重可下载。他也给了日常模型选择上的建议，如果你要解决高难度数学或编程问题，像 R1 这样的“思考型模型”更具优势，但相应的计算与时间成本更长，一些知识性或简单的咨询问题用 GPT-4o 这样的监督微调（SFT）模型就足够了。

相关新闻