#分享从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子，就是 CoT，在 Prompt 中包含类似 `Think step by step` 的短语，它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero 仅通过强化学习而没有初始

#DeepSeekR1 #推理模型 #训练方法 #计算资源 #CoT #强化学习

相关新闻

郭宇 guoyu.eth

1周前

在同样的计算资源上运行最快效率最好的 sandbox cloud 会成为 agent matrix 最大的基础设施

Mr Panda

2周前

opus 4.5 、codex 5.3 这两个模型，给我最大的体验就是反思能力增强。之前的模型会无脑的执行你的命令，在一次性处理的任务，表现在特别好。但在是如果我的命令不合理，存在与之前的业务逻辑矛盾的时候，之前的模型不会反思、也不会提醒我。这两个模型在反思能力表现上，非常的突出，不知道是不是强化学习的功劳。

Error404

3周前

说真的，在深度参与后我真的没找到openclaw除了可以吃大量的token之外有什么真实的应用场景

howie.serious

3个月前

gemini 最佳实践：if 深度思考，then 信息图总结。每次和 gemini 聊完一个话题，如果是多轮的层层深入的对话，最后有所收获的话，那就多走一步：选择 nano 🍌， > 基于我们前面的对话，画一张信息图，整理核心观点例如，刚才和 ai 聊 llm 强化学习对于父母的启发。语言是模糊的，思想是在多轮对话中逐渐清晰的，和 llm 多轮对话当然是有启发的，但多了信息图总结这一步，

Y11

4个月前

在玩狼人杀时，你是不是还是常常被人虐菜？分享一种基于强化学习的原理，自学提升《狼人杀》技术的方法，让你可以一周之内技术水平突飞猛进，晋升成为高级玩家，方法如下：狼人杀的角色、情景是有限的，因此决策空间也有限。你可以通过建模，与大模型对话辅导，你可以通过自学成为一个高级玩家，节省自己的‘预训练’时间。参考提示词如下（可以使用Gemini 3练习）： ----- 作为一个狼人杀高级常胜玩家，