Tigris 会讲课教授是好老师
1周前
-
你以为DeepSeek的AI奇迹,只靠神秘算法? 大错特错! 真正令他们领先的秘诀,恰恰是连CEO梁文峰都亲自下场干的“脏活” —— 数据标注! 与那些轻率的 “AI玄学” 论调截然相反,DeepSeek R1的突破,根植于海量的优质人工生成和合成数据。 事实上,DeepSeek模型在开源领域,正以惊人的数据量刷新纪录: 1️⃣60万条核心推理数据 (驱动模型深度思考) 2️⃣20万条监督微
你以为DeepSeek的AI奇迹,只靠神秘算法? 大错特错! 真正令他们领先的秘诀,恰恰是连CEO梁文峰都亲自下场干的“脏活” —— 数据标注! 与那些轻率的 “AI玄学” 论调截然相反,DeepSeek R1的突破,根植于海量的优质人工生成和合成数据。 事实上,DeepSeek模型在开源领域,正以惊人的数据量刷新纪录: 1️⃣60万条核心推理数据 (驱动模型深度思考) 2️⃣20万条监督微调 (SFT) 数据 (提升模型指令跟随能力) 3️⃣规模惊人的RLHF人工偏好数据集 (据估计至少300-500万条样本!远超同行,塑造更符合人类价值观的AI) 4️⃣关键的CoT链式推理合成数据 (高质量“冷启动”燃料,加速模型效率飞升) 正是这史无前例的高质量数据投喂,才最终成就了DeepSeek R1在低成本下,推理能力的惊人涌现 ,开创AI新范式! 如此规模的优质合成数据,究竟从何而来? 答案或许已呼之欲出。