时政
财经
科技

#RL范式

九原客
九原客
2025-01-27 14:38:51

有人说DeepSeek R1 的 RL 范式也没啥创新,其实点不在这里。 o1出来后纷纷开始复刻,OpenAI 也不说怎么实现的,也不展示COT数据。所以说蒸馏o1纯属扯淡,OpenAI 防的死死的。 RL 论文上百篇方法几十种,最后 DeepSeek 肯定不是第一家试出来的(比如Google 的 gemini flash 2.0 thinking 就很好),但它是第一家说出来的,善莫大焉。

#DeepSeekR1#RL范式#OpenAI
没有更多了 🤐