时政
财经
科技
登录
#RL
关注
马东锡 NLP 🇸🇪
2个月前
「LLM x RL」DeepSeek 最新论文:Inference-Time Scaling for Generalist Reward Modeling 在 RL 中,Reward Modeling(RM)是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分,从而调整 LLM 的 policy,使其更符合 RM 设定的要求,比如更强的 reasoning 能力。 针对特定任务(Task-specific)的 RM 相对容易设计,能够对 LLM 在具体任务中的生成结果进行较为准确的评分。 但一个通用的 Reward Model(General RM,简称 GRM),需要对不同类型的任务都给出准确评分,这非常困难。 GRM 的难点在于它需要学习一个潜在的规则(latent rule),以判断在不同任务中应该如何评分。 然而 latent rule 难以学习,DeepSeek 干脆采用了显式的、基于规则(rule-based)的方法——所谓的 Self-Principled Critique Tuning(SPCT),通过生成不同的 principle 和 critique 来辅助 GRM 的评分。 非常聪明!但看到 rule-based,又仿佛回到了 machine learning 最初的模样:rule-based、feature engineering……
#LLM
#RL
#RewardModeling
#InferenceTimeScaling
#DeepSeek
#PolicyAdjustment
#ReasoningAbility
#AI
#MachineLearning
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
「LLM, Agent, RL的关系」 在LLM的语境下,Agent是能理解问题,自主进行推理(Reasoning),并采取行动的系统。你可以把它想象成一个非常聪明的助手,当你提出复杂问题时,它不会立即给出答案,而是会在内心进行推理和规划(Planning),再给出最终决定。 如果我们回顾prompt engineering中提高LLM Reasoning能力的方法,如Self-Consistency、Tree of Thoughts 和 ReAct,本质上都体现了强化学习(RL)中常见的规划思想: Tree of Thoughts:如同下棋时,你脑海中会形成一个思考树,一步步推演未来可能的局面,从而找到最优解。这与RL中的树搜索(Tree Search)方法完全对应,体现了明显的模型化规划(Model-based Planning)特征。 ReAct(Reasoning+Acting,推理加行动):类似于你边思考边行动,不断尝试,再根据反馈调整下一步的计划。这种推理与行动的交替模式与RL中Agent持续地感知状态(Observing)、制定策略(Policy)、采取行动(Acting)并从环境中获得反馈(Feedback)非常类似。 为什么增强LLM的Reasoning通常要使用RL方法? 尽管LLM本身已经具备强大的知识和生成能力,但它们本质上是基于“下一个词预测”的机制(Next-Word Prediction),缺乏深度的Planning能力和对未来结果的有效预测。这就像一个聪明但缺乏系统训练的人,虽然懂得很多知识,但在面对复杂决策时容易陷入短视和错误。 RL方法的加入,就像给LLM提供了一种“内心世界模型”(Internal World Model),帮助模型进行更好的内部规划: RL能帮助LLM学会评估和预测不同推理路径的可能结果,从而选择更优的路径,恰如DeepSeek R1, Kimi, o1的方法。 立一个FLAG, 把这些RL方法一个个用人话讲明白。
#LLM
#agent
#RL
#reasoning
#planning
#Prompt Engineering
#AI助手
#自主推理
分享
评论 0
0
德國之音
3个月前
瑞典政治家Göran Lindblad 就VOA \RFA\RFE\RL 等媒體被暫停資助發表評論。 The name Bloody Saturday is unfortunatly very much to the point describing the Trump administrations grave misstake to silence good journalism and essential information for listners in totalitarian countries like communist China, Iran and Russia. Censorship in totalitarian countries have for over 80 years been bypassad by Radio Free Europe and its sister networks.Dictators are celebrating and cheering to have a friend as President in USA. There are only two possible explenations ; 1 total lack of knowledge and understanding in regards of totalitarianism. Or 2 Colaboration between the dictatorships and and the US President. Now more than ever there is a need for freedom fighters to stand up for Democracy, Human Rights, and the Rule of Law Göteborg 2025 03 17 Göran Lindblad Author of the Resolution in PACE 2006 about the Need for Condemnation of Crimes commited by Totalitarian Communist regimes and number 2 signature to the Prague Declaration
#瑞典政治家
#Göran Lindblad
#资助暂时中止
#VOA
#RFA
#RFE
#RL
#媒体
#新闻自由
#特朗普政府
#政治评论
#美国
分享
评论 0
0
Panda
5个月前
【从DeepSeek到AI行业的四个思考】 一、论文推荐:大模型领域的「教科书式」样本 今天重读DeepSeek系列论文,印象深刻的其实是24年2月的 DeepSeek-Math ,如果说关于大模型领域你没有太多时间看论文,那单看这篇就够了,蕴含了他们对数据工程、RL的一切思考和实践,而其他论文都像是按部就班的后来之作,solid的工作是今天流量爆炸的基础 二、GPU ownership ≠ GPU utilization,真正的算力霸权,藏在代码而非机房 两天前我说“算力短缺是个笑话”其实略显不严谨,更准确的结论是: GPU ownership ≠ GPU utilization 见过几个团队豪掷百万美元训练模型,实际通过数据/算法优化就能将成本压到1-5% 讽刺的是,即便投入如此巨资,效果依然不尽如人意,他们只能搬出“scaling law还未生效”之类的说法向上级/甲方/投资人解释。 结合今天DeepSeek的故事,训练优质模型需要千卡不假,但真正的竞争力在于—— 1. 用10张卡做出别人100张卡的效果(技术密度) 2. 用100张卡产出别人1000张卡的成果(工程效率) 一个组织的模型创新实力,不在于GPU名义拥有量(GPU ownership),而在于GPU有效产出量(GPU utilization),产出低的组织会一味吹嘘大显卡的故事 真正的算力霸权,藏在代码而非机房 三、一切问题都是经济问题 在技术以外我们能看到一个问题:创新是富人的游戏 经济自由之后才可以按自己的想法做事情,靠讲故事拿到过高的估值其实也是一种负担,融资得来的钱并不是自己的钱 DeepSeek团队能专注底层技术,是因为背后站着幻方量化—— 显卡是之前为量化业务囤的,DeepSeek的人员成本可能还不如幻方每年做慈善捐的钱多 也几乎没有严肃考虑过商业化的事情,不做营销、不刷榜、把底层技术做solid做到极致,其他的自然就来了。 怎么做科技企业,穷人得在金钱上做决定,创新只生在大富之家 反观大多数团队: → 用投资人的钱做“共识内创新”(否则无法交代) → 用客户的钱做“可解释性研发”(否则无法续费) 我们曾用廉价的AutoDL平台以几十万RMB的极低成本训练30B合成数据的模型,这个路子我一直认为是对的,但最终搁置—— 哪怕我们这样合成出的数据比简单蒸馏OpenAI、Claude好得多,但客户和投资人都会觉得这是简单的左脚踩右脚,不是技术不对,而是:当你的生死取决于外部资金时,创新永远要为生存让路。 ▸ R1-Zero像赤手空拳的野路子天才(纯RL硬刚结果奖励) ▸ R1像受过系统训练的学院派(冷启动数据+RL调优) 技术路线的选择自由,本质上是一种财务自由。 四、借假修真不如直取真经 前辈提起过一个借假修真的话题:“如果你想做A,但你觉得A需要的资源很多,所以你跟外界说你要先做B,那你不如一开始就直接去做A” 若终极目标是A,却因资源不足改做B,本质是自我阉割 而真实世界的悖论:越是资源有限,越需要All in真实需求 今年试水个人账号,虽然没太大的成绩,但推特也有8k粉了,也算小有感悟: 当你的个人账号=公司品牌时—— ▸ 所有观点不再需要包装,粉丝天然就是你公司产品的种子用户 ▸ 账号像一面镜子:经营账号的过程中不断剖析自己的性格底色到底如何,拒绝掉一切和自己调性不符的事情 可能做账号的过程就是做真实的自己
#AI
#DeepSeek
#大模型
#数据工程
#RL
#流量
分享
评论 0
0
orange.ai
5个月前
卧槽,我在 Google Gemini Thinking 中竟然体验到了 DeepSeek R1 Zero 的论文里提到的语言的混乱现象 出现了很多种,完全分辨不出来是什么语言... 难道 Google 这个思考模型也是靠大量 RL 搞出来的吗?
#Google Gemini
#DeepSeek R1 Zero
#语言混乱
#思考模型
#RL
分享
评论 0
0
九原客
5个月前
DeepSeek R1的论文非常值得仔细看,粗略扫了下,他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。 同时这也证明领域级思考模型的训练目前的技术完全可以复现,只需要想办法合成对应的cot训练数据。 明天仔细研读下,并着手在实际的领域中尝试落地。
#DeepSeek
#思考模型
#GRPO
#Reward Model
#RL
#PRM
#MCTS
#cot训练
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞