#特定任务

马东锡 NLP 🇸🇪

1年前

LRM论文选读：START: Self-taught Reasoner with Tools 这篇文章介绍了一种构建特定任务、私域Large Reasoning Model的有效方法，主要方法是微调，而且没有使用reinforcement learning，但却有非常类似reinforcement learning with human feedback的特征。关键词有二： Test-time scaling Rejection sampling fine-tuning（反思微调）

#Large Reasoning Model #微调 #Reinforcement Learning #human feedback #论文选读 #特定任务 #私域