很多人担心DeepSeek的低成本训练会- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

很多人担心DeepSeek的低成本训练会冲击显卡市场，但我认为其实是利好首先一个误区是其他厂商模仿DeepSeek就不需要那么多卡了。其实DeepSeek-R1的低成本训练方法是可以scaling的。也就是说用更多卡，理论上效果只会更好。他本质上是一种improvement of scaling law，可以参考我下面画的不太严谨的示意图。在deepseek出来之前，其他大模型用PRM (process reward model)的时候，已经观察到scaling law失效，边际效应递减了，因为需要额外的卡训练PRM模型来监督推理过程，但是deepseek的出现重新验证了scaling law，也就是多一张卡，性能就成正比提升。这对显卡市场显然是一种利好。另一个误区是DeepSeek做的是推理，不是训练。其实DeepSeek-R1做的是纯纯的训练，他们是通过post-training，后训练，来训练出模型有更强的推理能力，这种训练和预训练对显卡的需求没有本质区别。纯粹的推理端scaling/搜索，也就是模型自己推理多种答案，然后再挑一个最好的给你，其实现在用的不是很多，因为对用户的延迟太长了，猜测o1-pro应该是用了推理端搜索，有趣的是deepseek发现PRM (process reward model)对推理后训练虽然没用，但对推理端搜索是有用的，只不过not worth it，性价比很低。其实未来对显卡市场和Scaling Law的最大威胁不是模型，而是数据。现有大模型已经用了几乎所有互联网数据，未来数据获取难度将指数级上升。之后很可能会遇到空有大量显卡，但没数据的窘境。

相关新闻