时政
财经
科技
登录
#特定任务
关注
马东锡 NLP 🇸🇪
3个月前
LRM论文选读:START: Self-taught Reasoner with Tools 这篇文章介绍了一种构建特定任务、私域Large Reasoning Model的有效方法,主要方法是微调,而且没有使用reinforcement learning,但却有非常类似reinforcement learning with human feedback的特征。 关键词有二: Test-time scaling Rejection sampling fine-tuning(反思微调)
#Large Reasoning Model
#微调
#Reinforcement Learning
#human feedback
#论文选读
#特定任务
#私域
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞