【李飞飞团队“50美元”复刻DeepSeek的R1真相:基于阿里云Qwen模型监督微调而成】财联社说李飞飞团队训练出s1人工智能推理模型,在数学和编码能力测试中与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。 我看了原始paper,核心信息如下: 【1】s1的基座模型为阿里通义千问Qwen 2.5-32B(图二红线部分)。在已经训练好的模型基础上,通过监督微调(supervised finetuning)并进行budget forcing后,模型 s1-32B 在竞赛数学问题上的表现比 o1-preview 高出 27%(MATH 和 AIME24)。李飞飞只是第五作者。 【2】s1模型只是在配置了16块H100 GPU的机器上训练了26分钟(图三),就达到了这样的效果,机时折合费用不足50美元。 【3】之所以只需要如此短的训练时间,关键之一是因为团队通过精选训练数据,提炼出1000个精心设计的问题(图四)。跑完这1000个问题,就能让模型能力有巨大提升。 【4】这1000个问题包含了思维链(reasoning traces)和正确答案,从Google的 Gemini Thinking Experimental 提炼蒸馏而来。 【5】可贵的是,使用同样知识覆盖,但不够精炼的5.9万个问题(1000个问题的超集)进行模型训练,与1000个问题相比,并没有带来显著的性能提升!! 【6】同时使用的关键技术还有 budget forcing。这是强制模型在测试时间上所花费的token数量。过短的思考时间/token数量会导致模型准确度不佳。而强制模型“深入思考”则线性提升了模型的回答质量(图五)。 【7】图六可以看到,黄色是s1在1000条数据训练后三大测试的结果,而绿线是s1的基座模型Qwen 2.5-32B的原始结果。AIME2024(美国数学邀请赛)从26.7直接拉升到56.7;MATH-500(竞赛数学问题集)从84 提升到93;GPQA(生物、化学和物理博士研究问题)从49提升到59.6。注意,这只是26分钟高质量数据训练的成果,已经接近蒸馏后的DeepSeek r1的水平。 这个模型的出色表现充分说明了高质量训练数据“画龙点睛”的作用,同时在强制模型“深度思考”方面加以控制的话,可以更加充分挖掘出现有大模型的潜力。