【李飞飞团队“50美元”复刻DeepSe- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

【李飞飞团队“50美元”复刻DeepSeek的R1真相：基于阿里云Qwen模型监督微调而成】财联社说李飞飞团队训练出s1人工智能推理模型，在数学和编码能力测试中与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。我看了原始paper，核心信息如下：【1】s1的基座模型为阿里通义千问Qwen 2.5-32B(图二红线部分)。在已经训练好的模型基础上，通过监督微调(supervised finetuning)并进行budget forcing后，模型 s1-32B 在竞赛数学问题上的表现比 o1-preview 高出 27%（MATH 和 AIME24）。李飞飞只是第五作者。【2】s1模型只是在配置了16块H100 GPU的机器上训练了26分钟(图三)，就达到了这样的效果，机时折合费用不足50美元。【3】之所以只需要如此短的训练时间，关键之一是因为团队通过精选训练数据，提炼出1000个精心设计的问题(图四)。跑完这1000个问题，就能让模型能力有巨大提升。【4】这1000个问题包含了思维链(reasoning traces)和正确答案，从Google的 Gemini Thinking Experimental 提炼蒸馏而来。【5】可贵的是，使用同样知识覆盖，但不够精炼的5.9万个问题(1000个问题的超集)进行模型训练，与1000个问题相比，并没有带来显著的性能提升！！【6】同时使用的关键技术还有 budget forcing。这是强制模型在测试时间上所花费的token数量。过短的思考时间/token数量会导致模型准确度不佳。而强制模型“深入思考”则线性提升了模型的回答质量(图五)。【7】图六可以看到，黄色是s1在1000条数据训练后三大测试的结果，而绿线是s1的基座模型Qwen 2.5-32B的原始结果。AIME2024(美国数学邀请赛)从26.7直接拉升到56.7；MATH-500(竞赛数学问题集)从84 提升到93；GPQA(生物、化学和物理博士研究问题)从49提升到59.6。注意，这只是26分钟高质量数据训练的成果，已经接近蒸馏后的DeepSeek r1的水平。这个模型的出色表现充分说明了高质量训练数据“画龙点睛”的作用，同时在强制模型“深度思考”方面加以控制的话，可以更加充分挖掘出现有大模型的潜力。

相关新闻