#geminiflash2.0

九原客

5个月前

有人说DeepSeek R1 的 RL 范式也没啥创新，其实点不在这里。 o1出来后纷纷开始复刻，OpenAI 也不说怎么实现的，也不展示COT数据。所以说蒸馏o1纯属扯淡，OpenAI 防的死死的。 RL 论文上百篇方法几十种，最后 DeepSeek 肯定不是第一家试出来的（比如Google 的 gemini flash 2.0 thinking 就很好），但它是第一家说出来的，善莫大焉。为全球降低试错成本，就是开源最大的价值，节约的是全人类的资源。另外 Kimi 的论文也不错，在数据和Reward方面比DeepSeek 更详细一些，也推荐看看。

#DeepSeekR1 #RL范式 #OpenAI #COT数据 #geminiflash2.0 #论文创新 #DeepSeek