时政
财经
科技
登录
#geminiflash2.0
关注
九原客
5个月前
有人说DeepSeek R1 的 RL 范式也没啥创新,其实点不在这里。 o1出来后纷纷开始复刻,OpenAI 也不说怎么实现的,也不展示COT数据。所以说蒸馏o1纯属扯淡,OpenAI 防的死死的。 RL 论文上百篇方法几十种,最后 DeepSeek 肯定不是第一家试出来的(比如Google 的 gemini flash 2.0 thinking 就很好),但它是第一家说出来的,善莫大焉。 为全球降低试错成本,就是开源最大的价值,节约的是全人类的资源。 另外 Kimi 的论文也不错,在数据和Reward方面比DeepSeek 更详细一些,也推荐看看。
#DeepSeekR1
#RL范式
#OpenAI
#COT数据
#geminiflash2.0
#论文创新
#DeepSeek
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞