我之前说OpenAI>Deepseek,所以追赶OpenAI的临门一脚到底差在哪里?先说结论,我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback),也就是人类反馈
Deepseek-R1这次的训练,仅利用了rule-based outcome reward,也就是数学题答案对错/测代码能不能跑通,训练出来了超强的逻辑,在math/c
我之前说OpenAI>Deepseek,所以追赶OpenAI的临门一脚到底差在哪里?先说结论,我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback),也就是人类反馈
Deepseek-R1这次的训练,仅利用了rule-based outcome reward,也就是数学题答案对错/测代码能不能跑通,训练出来了超强的逻辑,在math/code打平了O1。但是正如他们论文中也有提及,这样的训练是有损于模型表达的,所以经常能看到Deepseek的回答是有内在逻辑的,但是缺乏对逻辑之间转折的解释,以及观点之间细粒度的桥接。
另外也不是问题都需要推理,很多领域还需要的是经验性的判断,约定成俗的规则,抽象概念的理解,道德价值观的考量,模型在这些问题强行推理就会答偏。
能不能在开放问题上得到符合人类标准的答案取决于RLHF,简单来说就是让人给模型的答案打分,然后训练模型在人类那里得到更高的分数。 这里面算法能带来的提升很有限,主要是人力资源的较量:当模型越聪明越专业,我们就一定需要更加专业的领域专家来进行打分,毕竟一小时5刀的外包标注员是不可能对人文,艺术,法律,医学,生物等等专业领域的回答正确打分的---AI本身的专业度已经远远超过普通人。当然要雇佣更高级的专家进行标注的成本也是很高的。
openai对于RLHF有很深的理解,半年前就已经开始已经招聘相关领域博士来对模型回答进行标注。我们现在看到deepseek通过R1的训练已经达到o1的逻辑水平,差的,可能就在于人类专家对齐
所以,合理推测,类deepseek推理训练+博士级别的人类反馈,可能就是openai的所有秘密