马东锡 NLP 🇸🇪 0 关注者 关注 6个月前 LRM论文选读:START: Self-taught Reasoner with Tools 这篇文章介绍了一种构建特定任务、私域Large Reasoning Model的有效方法,主要方法是微调,而且没有使用reinforcement learning,但却有非常类似reinforcement learning with human feedback的特征。 关键词有二: Test-ti #Large Reasoning Model #微调 #Reinforcement Learning #human feedback #论文选读 #特定任务 #私域 前往原网页查看