5小时前

Deepseek的GRPO(Group Relative Policy Optimization )算法,还是非常有效的long CoT的RL方法,根据最后结果只和之前的相比更趋近目标,就能得到奖励,非常smart,在reward hack和RL效能之间取得平衡。 姚顺雨说起来只是个搞prompt的,用Tree of Search解决NTP基础上的有一定结构的token块的搜索问题。 语言真是