2025-06-04 10:30:00

九原客
DeepSeek R1的论文非常值得仔细看,粗略扫了下,他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。 同时这也证明领域级思考模型的训练目前的技术完全可以复现,只需要想办法合成对应的cot训练数据。 明天仔细研读下,并着手在实际的领域中尝试落地。
相关信息
2025-06-04 09:24:25
我在DeepSeek上问了一个问题
2025-06-04 08:41:34
经测试,若在6月4日询问DeepSeek类似于“今天是几月几号?”这样的问题,AI将屏蔽输出结果,显示“这个问题我暂时无法回答”。可以说是遥遥领先了。
2025-06-03 09:04:15
deepseek用起来感觉真的很叛逆,让改个东西能把人血压拉上来🫠
评论 0