很多人担心DeepSeek的低成本训练会冲击显卡市场,但我认为其实是利好 首先一个误区是其他厂商模仿DeepSeek就不需要那么多卡了。 其实DeepSeek-R1的低成本训练方法是可以scaling的。也就是说用更多卡,理论上效果只会更好。他本质上是一种improvement of scaling law,可以参考我下面画的不太严谨的示意图。在deepseek出来之前,其他大模型用PRM (p - x - news.news