时政
财经
科技
虚拟货币
其他
登录
nazha
关注
统计数据
1
文章
0
粉丝
0
获赞
0
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
nazha
6个月前
#分享 从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子,就是 CoT,在 Prompt 中包含类似 `Think step by step` 的短语,它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero 仅通过强化学习而没有初始 SFT 阶段进行训练。同时,也没有使用使用接受人类偏好的奖励模型,而是采用了准确性(用 LeetCode 编译器来验证代码结果,以及一个确定性系统来验证数学答案)和格式奖励(将模型的思考过程强制包裹在 `<think></think>` 之间)。 3. SFT + RL DeepSeek 使用 DeepSeek-R1-Zero 来生成冷启动(Cold Start)数据。使用此冷启动的数据,DeepSeek 通过 SFT 微调了该模型,然后是另一个 RL 阶段。为了防止 Language Mixing 的问题,在 RL 阶段引入了语言一致性奖励。 4. SFT + 蒸馏 与传统的模型蒸馏不同,DeepSeek 在小模型上(比如 Llama 8B、70B,Qwen 2.5 models)通过 DeepSeek-V3 和 DeepSeek-R1 生成的有监督数据,对小模型进行了微调。 其结果是蒸馏的小模型表现比 DeepSeek-R1 要弱,但和 DeepSeek-R1-Zero 差不多。 进一步,小模型纯 RL 和蒸馏的效果如何?DeepSeek 使用了 Qwen 32B 的模型作为作为对比。 有趣的结果是,对于小模型蒸馏比 RL 要更有效。
#DeepSeekR1
#推理模型
#训练方法
#计算资源
#CoT
#强化学习
分享
评论 0
0
1
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞