search icon
宝玉

宝玉

深度解析ChatGPT与DeepSeek R1:强化学习如何让大模型学会“思考”? Andrej Karpathy 前几天发的“深度解析像 ChatGPT 的大语言模型“,实在是太长了点,我自己写的翻译软件一运行就崩溃,还要花点时间修复一下(很遗憾 AI 还搞不定),先挑了其中一节讲 DeepSeek R1 的翻译了一下,强化学习如何让大模型学会“思考”。 像 GPT-4o 这种属于传统的预训练和监督微调(SFT)模型,而 o1,DeepSeek R1 这种则属于强化学习(RL)训练模型,能让模型自发地进行更复杂、更具创造力的推理。模型在不断迭代中学会自我回溯、多角度思考,输出更完整的解题过程。 Andrej 对 DeepSeek R1 评价不错,虽然 OpenAI 是首先实现了 RLFT,但DeepSeek R1更公开透明,带来可复现的研究细节,权重可下载。 他也给了日常模型选择上的建议,如果你要解决高难度数学或编程问题,像 R1 这样的“思考型模型”更具优势,但相应的计算与时间成本更长,一些知识性或简单的咨询问题用 GPT-4o 这样的监督微调(SFT)模型就足够了。

0/200

评论 0

暂无更多评论