马东锡 NLP 🇸🇪

马东锡 NLP 🇸🇪

0 关注者

1年前

LRM论文选读:START: Self-taught Reasoner with Tools 这篇文章介绍了一种构建特定任务、私域Large Reasoning Model的有效方法,主要方法是微调,而且没有使用reinforcement learning,但却有非常类似reinforcement learning with human feedback的特征。 关键词有二: Test-ti

#Large Reasoning Model #微调 #Reinforcement Learning #human feedback #论文选读 #特定任务 #私域

相关新闻

placeholder

Cell 细胞

6个月前

“私域,对它最大的误解恐怕就是认为私域就等于微信群。”

placeholder

刘小排

6个月前

用Claude for Chrome 来自动回复微信,神一样的体验!以后做微商的、做私域的朋友们有福了。AI浏览器的创业比赛,即将结束。 由于全球只有1000个用户有权限,我敢打赌,你肯定没见过! 下面的视频一镜到底,原速,未做任何剪辑 更多测评见

placeholder

Mr Panda

6个月前

我第一个版本的提示词从来都是用ai 生成, 然后由我进行微调。

placeholder

XiaoPeng

7个月前

Claude的指令依从性好像有所进步啊。我怀疑他们是怎么在后台调节的呢? 下图我在一个200行的提示词里面加了一正一负两个例子,它立刻就把原来生成结果里面的错误给挑出来了。我之前的经验这种调整通常是要么没生效,要么生效了但是不相关的部分也做了调整。 这大约相当于修图中的微调吧。

placeholder

GanymedeNil

7个月前

gpt-oss 微调教程来了

© 2025 news.news. All rights reserved. 0.03042 秒. v1.0.46
我的评论