时政
财经
科技
虚拟货币
其他
登录
马东锡 NLP
关注
统计数据
102
文章
0
粉丝
0
获赞
1373
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
马东锡 NLP
6个月前
Lovable 成功融资2亿美元,跻身独角兽。 Lovable 来自瑞典,创始人Anton是我校友,他还曾经去浙大交换过! Anton 从2023年底开始做 Lovable,那时候推友们在干啥呢!
#lovable
#融资
#独角兽
#瑞典
#创始人Anton
分享
评论 0
0
马东锡 NLP
9个月前
「LLM, Reasoning」论文 L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning 智慧不在于一味求索,而在于懂得根据问题的复杂性,伸缩思考的深度。 这篇论文非常出色,在test-time scaling的潮流中,直面了它的主要问题:即模型在推理过程中过于缓慢、冗长。 Test-time scaling的问题源于其自身特点——刻意增加LLM的推理长度,可以提升模型解决复杂问题的能力。 由于强化学习(RL)对scaling的鼓励,所谓的“aha moment”让模型倾向于过度地展示其思维过程:“一方面,另一方面,aha,wait,what if...”。模型似乎时刻用超高的latency考验用户的耐心。 这篇论文提出了LCPO(Length Controlled Policy Optimization,长度可控策略优化)的方法。 作者同样使用RL对模型进行优化,其核心是设计一个平衡准确性和长度遵循性的奖励函数,旨在训练语言模型在保持推理准确性的同时,尽量满足提示中对长度的要求。 论文最大的亮点: 模型能够根据提示中给出的要求,自适应地控制推理长度,从而有效节约计算资源。 两点思考: Test-time scaling的方法特别适用于复杂的数学问题。但普通用户在使用这些模型时,有多少场景是在解决复杂的数学问题?大型模型公司完全可以借鉴这一方法,根据用户的query自动决定模型推理的合适长度。 强化学习带有一种强烈的rule-based(基于规则)的特点。这种特性会放大贴合规则的效果,但也容易忽略规则之外的因素。规则即是限制,因此阅读RL相关的文章时,我总有种“LLM在顾此失彼”的感觉。 OpenAI的Shunyu说:“RL finally works.” 我不完全同意。我认为更准确地说,RL finally works with specific rules.
#LLM推理长度控制
#强化学习优化
#LCPO
#Test-time scaling问题
#规则限制
分享
评论 0
0
上一页
1
2
3
4
5
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞