sitin
9小时前
最近出海又开始折腾各种工具,整个人仿佛回到了当年写程序的时代,那种追求效率极致的劲头又回来了,做自媒体这 2 年,很多工具都是能用就用,有点摆烂,重新折腾后才发现,这样的状态,才是最舒服的
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1天前
预训练应该应该增加推理语料的多样性,然后SFT阶段使用一小套高质量数据监督微调,然后用奖励稳定下来。 预训练阶段逼着LLM自己学习内化,然后用sft高质量数据强化,最后用reward策略优化固化。 ---- Paper – arxiv. org/abs/2510.03264 Paper Title: "Front-Loading Reasoning: The Synergy between