时政

财经

科技

#GRPO

2025-01-20 17:36:27

DeepSeek R1的论文非常值得仔细看，粗略扫了下，他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。同时这也证明领域级思考模型的训练目前的技术完全可以复现，只需要想办法合成对应的cot训练数据。明天仔细研读下，并着手在实际的领域中尝试落地。

#DeepSeek #思考模型 #GRPO

没有更多了 🤐