0 关注者

10个月前

「LLM, Reasoning」论文 L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning 智慧不在于一味求索，而在于懂得根据问题的复杂性，伸缩思考的深度。这篇论文非常出色，在test-time scaling的潮流中，直面了它的主要问题：即模型在推理过程中过于缓慢、冗长。 Test-ti

#LLM推理长度控制 #强化学习优化 #LCPO #Test-time scaling问题 #规则限制

热门新闻