DeepSeek R1的论文非常值得仔细看，粗略扫了下，他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。同时这也证明领域级思考模型的训练目前的技术完全可以复现，只需要想办法合成对应的cot训练数据。明天仔细研读下，并着手在实际的领域中尝试落地。

#DeepSeek #思考模型 #GRPO #Reward Model #RL #PRM #MCTS #cot训练

Gorden Sun

2个月前

DeepSeek线上模型已更新

李老师不是你老师

2个月前

网友投稿 Deepseek，有中国特色社会主义思想觉悟的AI。

2个月前

对了，张震岳成都演唱会前排坐了一对母子，小孩哥帮母亲录视频的间隙，在用Github和Deepseek编程！我真的震惊了，看年纪顶多高一，更大可能是初中生，这个世界好疯狂

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2个月前

math确实是最适合符号智能的了，也不用考虑什么符号接地之类的东西看看deepseek的超长上下文版本什么时候出来！

陈少举（🦣 @[email protected] ）

2个月前

咋回事啊，这么多人用Deepseek的嘛。🤔 搜了一下微博，发现Deepseek炸了，我还以为是我的问题太复杂了。😂