Panda2025-01-29 03:18:32【从DeepSeek到AI行业的四个思考】 一、论文推荐:大模型领域的「教科书式」样本 今天重读DeepSeek系列论文,印象深刻的其实是24年2月的 DeepSeek-Math ,如果说关于大模型领域你没有太多时间看论文,那单看这篇就够了,蕴含了他们对数据工程、RL的一切思考和实践,而其他论文都像是按部就班的后来之作,solid的工作是今天流量爆炸的基础 二、GPU ownership ≠#AI#DeepSeek#大模型#数据工程#RL#流量
orange.ai2025-01-22 22:34:06卧槽,我在 Google Gemini Thinking 中竟然体验到了 DeepSeek R1 Zero 的论文里提到的语言的混乱现象 出现了很多种,完全分辨不出来是什么语言... 难道 Google 这个思考模型也是靠大量 RL 搞出来的吗? #Google Gemini#DeepSeek R1 Zero#语言混乱#思考模型#RL
九原客2025-01-20 17:36:27DeepSeek R1的论文非常值得仔细看,粗略扫了下,他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。 同时这也证明领域级思考模型的训练目前的技术完全可以复现,只需要想办法合成对应的cot训练数据。 明天仔细研读下,并着手在实际的领域中尝试落地。#DeepSeek#思考模型#GRPO#Reward Model#RL#PRM#MCTS#cot训练