很多人担心DeepSeek的低成本训练会冲击显卡市场,但我认为其实是利好 首先一个误区是其他厂商模仿DeepSeek就不需要那么多卡了。 其实DeepSeek-R1的低成本训练方法是可以scaling的。也就是说用更多卡,理论上效果只会更好。他本质上是一种improvement of scaling law,可以参考我下面画的不太严谨的示意图。在deepseek出来之前,其他大模型用PRM (process reward model)的时候,已经观察到scaling law失效,边际效应递减了,因为需要额外的卡训练PRM模型来监督推理过程,但是deepseek的出现重新验证了scaling law,也就是多一张卡,性能就成正比提升。这对显卡市场显然是一种利好。 另一个误区是DeepSeek做的是推理,不是训练。其实DeepSeek-R1做的是纯纯的训练,他们是通过post-training,后训练,来训练出模型有更强的推理能力,这种训练和预训练对显卡的需求没有本质区别。纯粹的推理端scaling/搜索,也就是模型自己推理多种答案,然后再挑一个最好的给你,其实现在用的不是很多,因为对用户的延迟太长了,猜测o1-pro应该是用了推理端搜索,有趣的是deepseek发现PRM (process reward model)对推理后训练虽然没用,但对推理端搜索是有用的,只不过not worth it,性价比很低。 其实未来对显卡市场和Scaling Law的最大威胁不是模型,而是数据。现有大模型已经用了几乎所有互联网数据,未来数据获取难度将指数级上升。之后很可能会遇到空有大量显卡,但没数据的窘境。