时政
财经
科技
登录
#MachineLearning
关注
马东锡 NLP 🇸🇪
1个月前
「RLVR, Reasoning」 Spurious Rewards: Rethinking Training Signals in RLVR 当随意的奖励信号仍可以大幅提升模型性能,就得重新思考:到底是RL在学习,还是在放大某种“先验”行为。 "RLVR must somehow be surfacing useful reasoning representations learned during pretraining." 预定本周最佳论文! 对 Qwen2.5-Math 系列,作者使用与正确性几乎无关、甚至负相关的“随意奖励”也能把 MATH-500 的准确率大幅提升。 读完论文,觉得精彩,更觉得作者非常 “蓄意” 😆。 “蓄意”地挑选“先验”模型和“非先验”模型: - 选 Qwen 2.5-Math(自带大量 Python 链式推理) - 选 Llama 3 / OLMo 2(通用模型、少或劣代码) “蓄意”地验证并凸显两件事: - RLVR 像放大器:在 Qwen 上,即便奖励随机或错误,GRPO 的裁剪也会“放大”如 coding 这一高概率、 高正确率的行为,准确率随之增长。 - 先验缺失就失效:Llama/OLMo 没有或只会 Bad-Code,被放大的只是噪声,成绩持平或下降。 严谨的实验支持了 RLVR 主要在 “放大” 预训练潜能而非教授新能力的观点。 作者同样建议跨模型、跨任务验证与深入理解模型先验,不要只盯着单一模型做漂亮数值提升的工作,因为那可能根本没有意义。 那些围绕Qwen模型,精心构造奖励函数的研究员们,瑟瑟发抖中。
#RLVR
#SpuriousRewards
#DeepLearning
#reasoning
#TrainingSignals
#MachineLearning
#ModelPerformance
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
「LLM x RL」DeepSeek 最新论文:Inference-Time Scaling for Generalist Reward Modeling 在 RL 中,Reward Modeling(RM)是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分,从而调整 LLM 的 policy,使其更符合 RM 设定的要求,比如更强的 reasoning 能力。 针对特定任务(Task-specific)的 RM 相对容易设计,能够对 LLM 在具体任务中的生成结果进行较为准确的评分。 但一个通用的 Reward Model(General RM,简称 GRM),需要对不同类型的任务都给出准确评分,这非常困难。 GRM 的难点在于它需要学习一个潜在的规则(latent rule),以判断在不同任务中应该如何评分。 然而 latent rule 难以学习,DeepSeek 干脆采用了显式的、基于规则(rule-based)的方法——所谓的 Self-Principled Critique Tuning(SPCT),通过生成不同的 principle 和 critique 来辅助 GRM 的评分。 非常聪明!但看到 rule-based,又仿佛回到了 machine learning 最初的模样:rule-based、feature engineering……
#LLM
#RL
#RewardModeling
#InferenceTimeScaling
#DeepSeek
#PolicyAdjustment
#ReasoningAbility
#AI
#MachineLearning
分享
评论 0
0
Herrington Darkholme
5个月前
rule based reward model also means their training target would be limited to domains with ground truth. It is interesting how they can extend to questions with ambiguous, but comparable, answers
#RuleBasedAI
#RewardModel
#MachineLearning
#ambiguity
#GroundTruth
分享
评论 0
0
NO CONTEXT HUMANS
5个月前
Me too machine, me too.
#MeToo
#MachineLearning
#AI
#genderissues
#WomenRights
分享
评论 0
0
NO CONTEXT HUMANS
6个月前
AI is wild
#ArtificialIntelligence
#Technology
#AIRevolution
#MachineLearning
#FutureOfTech
分享
评论 0
0
Wild Clips
6个月前
Gravity rejected him
#Gravity
#Physics
#ScientificDiscovery
#OpenAI
#MachineLearning
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞