Deepseek的GRPO（Group Relative Policy Optimization ）算法，还是非常有效的long CoT的RL方法，根据最后结果只和之前的相比更趋近目标，就能得到奖励，非常smart，在reward hack和RL效能之间取得平衡。姚顺雨说起来只是个搞prompt的，用Tree of Search解决NTP基础上的有一定结构的token块的搜索问题。语言真是

#DeepSeek #GRPO算法 #long CoT #RL方法 #姚顺雨 #Tree of Search #NTP #token块搜索

相关新闻

BITWU.ETH 🔆

1天前

Claude 被封的没脾气了，我也开始用 zenmux 相对来说比较稳定，而且选择余地多 OpenAI / Claude / Gemini / DeepSeek 等所有模型也不降智。懒得折腾贵就贵点吧，下面链接大家有需要自取：用的话可以帮你们省10刀费用，不用也随意。他们是随机开放名额的，我上午还不行刚看了下可以才注册的。

AB Kuai.Dong

2天前

没想到腾讯版的 Figma，也要来了。目前产品名为 Ardot，正在内测阶段。根据网站上的信息显示，相比于普通的设计软件，Ardot 引入了 AI 对话功能，从而让用户下指令给 AI，来完成生成模版、修改设计稿、调整细节的需求。该 AI 模型底层是 DeepSeek。

猫神

1周前

#甄子丹这个废物，为了赚中国人的钱，毫无底线说deepseek好用，而且还是免费👎😂

川沐｜Trumoo🐮

1周前

minimax爆拉就是因为腾讯的QClaw能直接在微信上养龙虾，可以接入kimi，minimax，deepseek，只有minimax上市可以买。

Gorden Sun

3个月前

DeepSeek线上模型已更新