「LLM x RL」DeepSeek 最- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

马东锡 NLP 🇸🇪

0 关注者

3个月前

「LLM x RL」DeepSeek 最新论文：Inference-Time Scaling for Generalist Reward Modeling 在 RL 中，Reward Modeling（RM）是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分，从而调整 LLM 的 policy，使其更符合 RM 设定的要求，比如更强的 reasoning 能力。针对特定任务（Task-specific）的 RM 相对容易设计，能够对 LLM 在具体任务中的生成结果进行较为准确的评分。但一个通用的 Reward Model（General RM，简称 GRM），需要对不同类型的任务都给出准确评分，这非常困难。 GRM 的难点在于它需要学习一个潜在的规则（latent rule），以判断在不同任务中应该如何评分。然而 latent rule 难以学习，DeepSeek 干脆采用了显式的、基于规则（rule-based）的方法——所谓的 Self-Principled Critique Tuning（SPCT），通过生成不同的 principle 和 critique 来辅助 GRM 的评分。非常聪明！但看到 rule-based，又仿佛回到了 machine learning 最初的模样：rule-based、feature engineering……

#LLM #RL #RewardModeling #InferenceTimeScaling #DeepSeek #PolicyAdjustment #ReasoningAbility #AI #MachineLearning

相关新闻

Mr Panda

4周前

想找找大家1v1聊聊 AI ，尤其是没有技术背景的同学，很想知道没有计算机背景的同学，是如何面对AI 的挑战的。如果大家有兴趣私聊我，也许我也可以给到你一些启发

sitin

4周前

AI这几年特别火，很多人问我RPA还有必要学吗？我的看法是，AI和RPA其实是互补的。AI负责思考和创造，RPA负责执行和操作。我们现在的很多机器人都是AI+RPA的组合，效果特别好。比如公众号仿写机器仁，AI负责改写内容，RPA负责自动排版发布。知乎写作机器人也是这个逻辑。单纯的AI只能给你答案，但不能帮你把答案发布到各个平台。这个执行的环节，还是需要RPA来完成。所以我觉得这两

Michael Anti

4周前

这几天看了好几个人关于AI取代人类工作的思考：我觉得共识逐步有了，未来留给人类大概就是四类工作或者他们的组合：1）构建框架，2）沟通说服，3）责任判断，4）花样使用AI，其他都交给了AI。

howie.serious

4周前

人类学习闭环中的“编码”环节 quanta杂志的这篇文章，讲的是科学家如何通过llm来更好地理解人类大脑的运作机制，用人工神经网络来理解人类的大脑神经网络。我的笔记（只提取了一点🤣）： - 人脑的语言系统和视觉系统，都可以视为一种“特征编码器”（feature encoder），即能够对输入的信息（无论是视觉图像还是语言符号）进行处理并提取出特征。 - 语言系统不是简单地存储单词或句子

宝玉

4周前

转译：如果 AI 如此强大，为何翻译岗位依然抢手？ 2024年6月18日作者：Greg Rosalsky 今年早些时候，语言学习应用 Duolingo（多邻国）成为了一个典型案例，它因裁减员工并用人工智能取而代之，引发了一连串新闻头条的密集报道，加剧了公众对人类工作岗位安危的焦虑。最引人注目的裁员对象是翻译人员，他们原本负责公司一些较小众语言课程的翻译工作。在媒体盘点的最可能被 AI 取代