马东锡 NLP

马东锡 NLP

0 关注者

4个月前

「LLM, Reasoning」论文 L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning 智慧不在于一味求索,而在于懂得根据问题的复杂性,伸缩思考的深度。 这篇论文非常出色,在test-time scaling的潮流中,直面了它的主要问题:即模型在推理过程中过于缓慢、冗长。 Test-ti