JundeWu2025-01-27 21:15:06我之前说OpenAI>Deepseek,所以追赶OpenAI的临门一脚到底差在哪里?先说结论,我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback),也就是人类反馈 Deepseek-R1这次的训练,仅利用了rule-based outcome reward,也就是数学题答案对错/测代码能不能跑通,训练出来了超强的逻辑,在math/c#OpenAI#DeepSeek#RLHF
JundeWu2025-01-27 02:57:40很多人担心DeepSeek的低成本训练会冲击显卡市场,但我认为其实是利好 首先一个误区是其他厂商模仿DeepSeek就不需要那么多卡了。 其实DeepSeek-R1的低成本训练方法是可以scaling的。也就是说用更多卡,理论上效果只会更好。他本质上是一种improvement of scaling law,可以参考我下面画的不太严谨的示意图。在deepseek出来之前,其他大模型用PRM (p#DeepSeek#显卡市场#低成本训练
JundeWu2025-01-26 08:09:18deepseek在英文圈已经被吹上天了,发现中文圈还有很多非AI业内人士,对deepseek的能力没有一个清晰的认识,所以用中文发一条,先说结论,我认为行业贡献而言:GPT>deepseek>gemini>llama及其他 很多人的着眼点在于他用很少的卡也能训练出效果差不多的模型,但这是结果,更重要的他能做到这一点的技术: deepseek这次最亮眼的是证明了纯粹的outcome reward#DeepSeek#AI#GPT