时政
财经
科技

#训练方法

nazha
nazha
2025-02-10 20:29:55

#分享 从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子,就是 CoT,在 Prompt 中包含类似 `Think step by step` 的短语,它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero 仅通过强化学习而没有初始

#DeepSeekR1#推理模型#训练方法
没有更多了 🤐