马东锡 NLP 0 关注者 关注 4个月前 「LLM, Reasoning」论文 L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning 智慧不在于一味求索,而在于懂得根据问题的复杂性,伸缩思考的深度。 这篇论文非常出色,在test-time scaling的潮流中,直面了它的主要问题:即模型在推理过程中过于缓慢、冗长。 Test-ti #LLM推理长度控制 #强化学习优化 #LCPO #Test-time scaling问题 #规则限制 前往原网页查看