𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞 0 关注者 关注 1个月前 Deepseek的GRPO(Group Relative Policy Optimization )算法,还是非常有效的long CoT的RL方法,根据最后结果只和之前的相比更趋近目标,就能得到奖励,非常smart,在reward hack和RL效能之间取得平衡。 姚顺雨说起来只是个搞prompt的,用Tree of Search解决NTP基础上的有一定结构的token块的搜索问题。 语言真是 #DeepSeek #GRPO算法 #long CoT #RL方法 #姚顺雨 #Tree of Search #NTP #token块搜索 前往原网页查看