JundeWu
6个月前
我之前说OpenAI>Deepseek,所以追赶OpenAI的临门一脚到底差在哪里?先说结论,我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback),也就是人类反馈 Deepseek-R1这次的训练,仅利用了rule-based outcome reward,也就是数学题答案对错/测代码能不能跑通,训练出来了超强的逻辑,在math/code打平了O1。但是正如他们论文中也有提及,这样的训练是有损于模型表达的,所以经常能看到Deepseek的回答是有内在逻辑的,但是缺乏对逻辑之间转折的解释,以及观点之间细粒度的桥接。 另外也不是问题都需要推理,很多领域还需要的是经验性的判断,约定成俗的规则,抽象概念的理解,道德价值观的考量,模型在这些问题强行推理就会答偏。 能不能在开放问题上得到符合人类标准的答案取决于RLHF,简单来说就是让人给模型的答案打分,然后训练模型在人类那里得到更高的分数。 这里面算法能带来的提升很有限,主要是人力资源的较量:当模型越聪明越专业,我们就一定需要更加专业的领域专家来进行打分,毕竟一小时5刀的外包标注员是不可能对人文,艺术,法律,医学,生物等等专业领域的回答正确打分的---AI本身的专业度已经远远超过普通人。当然要雇佣更高级的专家进行标注的成本也是很高的。 openai对于RLHF有很深的理解,半年前就已经开始已经招聘相关领域博士来对模型回答进行标注。我们现在看到deepseek通过R1的训练已经达到o1的逻辑水平,差的,可能就在于人类专家对齐 所以,合理推测,类deepseek推理训练+博士级别的人类反馈,可能就是openai的所有秘密
JundeWu
6个月前
很多人担心DeepSeek的低成本训练会冲击显卡市场,但我认为其实是利好 首先一个误区是其他厂商模仿DeepSeek就不需要那么多卡了。 其实DeepSeek-R1的低成本训练方法是可以scaling的。也就是说用更多卡,理论上效果只会更好。他本质上是一种improvement of scaling law,可以参考我下面画的不太严谨的示意图。在deepseek出来之前,其他大模型用PRM (process reward model)的时候,已经观察到scaling law失效,边际效应递减了,因为需要额外的卡训练PRM模型来监督推理过程,但是deepseek的出现重新验证了scaling law,也就是多一张卡,性能就成正比提升。这对显卡市场显然是一种利好。 另一个误区是DeepSeek做的是推理,不是训练。其实DeepSeek-R1做的是纯纯的训练,他们是通过post-training,后训练,来训练出模型有更强的推理能力,这种训练和预训练对显卡的需求没有本质区别。纯粹的推理端scaling/搜索,也就是模型自己推理多种答案,然后再挑一个最好的给你,其实现在用的不是很多,因为对用户的延迟太长了,猜测o1-pro应该是用了推理端搜索,有趣的是deepseek发现PRM (process reward model)对推理后训练虽然没用,但对推理端搜索是有用的,只不过not worth it,性价比很低。 其实未来对显卡市场和Scaling Law的最大威胁不是模型,而是数据。现有大模型已经用了几乎所有互联网数据,未来数据获取难度将指数级上升。之后很可能会遇到空有大量显卡,但没数据的窘境。
JundeWu
6个月前
deepseek在英文圈已经被吹上天了,发现中文圈还有很多非AI业内人士,对deepseek的能力没有一个清晰的认识,所以用中文发一条,先说结论,我认为行业贡献而言:GPT>deepseek>gemini>llama及其他 很多人的着眼点在于他用很少的卡也能训练出效果差不多的模型,但这是结果,更重要的他能做到这一点的技术: deepseek这次最亮眼的是证明了纯粹的outcome reward RL能够直接把模型提到o1水平,在他出来之前,业内所有人(包括deepmind)都认为需要prm (process reward model)才能做到这点,这就已经是颠覆行业的发现了,现在所有除gpt外的llm大组,都在推倒重来,copying他们的训练方法 另外非常重要的是deepseek还发现了这种训练方式甚至能够让模型自己学会longer-chain reasoning以及reflection,他们所谓“aha moment”。相当于只训练llm得到更准确的结果,llm就能自己学会反思,思考到一半知道自己这样做下去会错,然后尝试自己纠错,这种模型“自我进化”的特性是业内仅次于GPT intelligence emergence的重大发现 就结果而言,“用更少的卡训练出效果差不多的模型”可能不仅仅是节约成本这么简单,更是一种improvement of scaling law,意味着这种方法往上堆更多的卡有可能把模型能力再往上提升一个数量级,甚至直接达到AGI/ASI 这就是为什么这次业内这么hyper,deepseek开源的价值远大于llama,llama基本是大家已知的方法堆卡训练,deepseek带来太多的惊喜