2025-03-14 23:48:47
大语言模型 post-training 的变迁,从 Large Language Model (LLM) 到 Large Reasoning Model (LRM) 本周推荐论文:POST-TRAINING OF LARGE LANGUAGE MODELS Post-training,本质是在做一件事,即如何运用 LLM 的 pretrained knowledge 来解决实际任务,具体的方法如 supervised fine-tuning(SFT)、instruction tuning 以及 reinforcement learning(RL)。
2025-03-14 23:48:47
2025-02-21 20:43:40
2025-02-01 20:15:33
2025-01-27 07:50:46
2025-01-08 00:21:52