2025-04-17 02:16:08
DeepSeek R1的论文非常值得仔细看,粗略扫了下,他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。 同时这也证明领域级思考模型的训练目前的技术完全可以复现,只需要想办法合成对应的cot训练数据。 明天仔细研读下,并着手在实际的领域中尝试落地。
2025-04-17 02:16:08
2025-04-17 02:14:34
2025-04-14 17:42:40
2025-04-12 09:28:51
2025-04-11 21:23:39