Jeff Li
11个月前
【李飞飞团队“50美元”复刻DeepSeek的R1真相:基于阿里云Qwen模型监督微调而成】财联社说李飞飞团队训练出s1人工智能推理模型,在数学和编码能力测试中与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。 我看了原始paper,核心信息如下: 【1】s1的基座模型为阿里通义千问Qwen 2.5-32B(图二红线部分)。在已经训练好的模型基础上,通过监督微调(supervised finetuning)并进行budget forcing后,模型 s1-32B 在竞赛数学问题上的表现比 o1-preview 高出 27%(MATH 和 AIME24)。李飞飞只是第五作者。 【2】s1模型只是在配置了16块H100 GPU的机器上训练了26分钟(图三),就达到了这样的效果,机时折合费用不足50美元。 【3】之所以只需要如此短的训练时间,关键之一是因为团队通过精选训练数据,提炼出1000个精心设计的问题(图四)。跑完这1000个问题,就能让模型能力有巨大提升。 【4】这1000个问题包含了思维链(reasoning traces)和正确答案,从Google的 Gemini Thinking Experimental 提炼蒸馏而来。 【5】可贵的是,使用同样知识覆盖,但不够精炼的5.9万个问题(1000个问题的超集)进行模型训练,与1000个问题相比,并没有带来显著的性能提升!! 【6】同时使用的关键技术还有 budget forcing。这是强制模型在测试时间上所花费的token数量。过短的思考时间/token数量会导致模型准确度不佳。而强制模型“深入思考”则线性提升了模型的回答质量(图五)。 【7】图六可以看到,黄色是s1在1000条数据训练后三大测试的结果,而绿线是s1的基座模型Qwen 2.5-32B的原始结果。AIME2024(美国数学邀请赛)从26.7直接拉升到56.7;MATH-500(竞赛数学问题集)从84 提升到93;GPQA(生物、化学和物理博士研究问题)从49提升到59.6。注意,这只是26分钟高质量数据训练的成果,已经接近蒸馏后的DeepSeek r1的水平。 这个模型的出色表现充分说明了高质量训练数据“画龙点睛”的作用,同时在强制模型“深度思考”方面加以控制的话,可以更加充分挖掘出现有大模型的潜力。
Jeff Li
1年前
过去一年,美国增加了200多万个就业岗位。但更多失业者发现很难重新找到工作。 截至去年11月,超过700万美国人失业,这意味着他们没有工作并且正在找工作。根据美国劳工部的数据,在这些失业者中,有超过160万人已经求职至少六个月。自2022年底以来,找工作时间如此之长的求职者人数增加了50%以上。 美国劳工部的数据显示,现在人们平均需要大约六个月的时间才能找到工作,这比2023年初疫情后招聘热潮期间大约长了一个月。求职难主要集中在高薪白领工作,包括科技、法律和媒体行业,这些行业在经济从疫情中复苏时快速增长,但现在对新员工的需求减少。 新闻报道中的就业市场看起来很健康,但实际上却比看起来要疲软。目前美国失业率为4.2%,仍远低于疫情暴发之前十年的平均水平。但现在职位空缺与失业人数之比大约只有1:1,低于2022年初的2:1。强劲的招聘已仅限于少数几个行业。美国政府将于周五发布的月度就业报告将提供劳动力市场健康状况的最新概况。 越来越多领取失业救济金的人需要更长时间依靠公共援助。美国劳工部上周公布的新数据显示,截至去年12月底,有180万人继续申领此前获批的失业救济金,接近疫情后的高点。 工资同比增幅已从本十年初招聘热潮高峰期的约6%降至4%。这表明许多雇主不必再费力地吸引员工。 招聘网站Indeed的经济学家科里·斯塔勒(Cory Stahle)说,去年年底,该网站上软件开发、数据科学和营销岗位的招聘信息都比疫情前水平低了至少20%。政府数据显示,信息行业的招聘率比疫情前下降30%,金融行业的招聘率下降28%。 相比之下,采矿业、制造业和运输业的招聘情况依然保持韧性。在过去12个月里,仅医疗健康和政府工作这两个行业就占了新增就业岗位总数的一半以上。 为了找到工作,越来越多的人被迫转行。招聘网站ZipRecruiter经济学家茱莉娅·波拉克(Julia Pollack)援引该公司的调查称,在过去六个月里,超过半数新员工表示,他们转行是为了获得新工作,而通常这一比例约为40%。