马东锡 NLP 🇸🇪2025-04-04 17:33:30「LLM x RL」DeepSeek 最新论文:Inference-Time Scaling for Generalist Reward Modeling 在 RL 中,Reward Modeling(RM)是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分,从而调整 LLM 的 policy,使其更符合 RM 设定的要求,比如更强的 reasoning 能力。 针对特定任务(
马东锡 NLP 🇸🇪2025-04-02 06:34:00「LLM, Agent, RL的关系」 在LLM的语境下,Agent是能理解问题,自主进行推理(Reasoning),并采取行动的系统。你可以把它想象成一个非常聪明的助手,当你提出复杂问题时,它不会立即给出答案,而是会在内心进行推理和规划(Planning),再给出最终决定。 如果我们回顾prompt engineering中提高LLM Reasoning能力的方法,如Self-Consis
德國之音2025-03-18 06:27:39瑞典政治家Göran Lindblad 就VOA \RFA\RFE\RL 等媒體被暫停資助發表評論。 The name Bloody Saturday is unfortunatly very much to the point describing the Trump administrations grave misstake to silence good journalism and es
向阳乔木2025-03-09 09:34:05“OpenAI的计划是从GPT-5开始,把直觉模型和思考模型统一起来,由系统自己决定是否开启深度思考。” 有意思,真的从人大脑运作角度统一起来了。 系统1:快思考,传统大模型(GPT4.5、Deepseek V3 ) 系统2:慢思考,推理模型(O1-pro、Deepseek R1) 脑科学和计算机科学,互相启发~
Panda2025-01-29 03:18:32【从DeepSeek到AI行业的四个思考】 一、论文推荐:大模型领域的「教科书式」样本 今天重读DeepSeek系列论文,印象深刻的其实是24年2月的 DeepSeek-Math ,如果说关于大模型领域你没有太多时间看论文,那单看这篇就够了,蕴含了他们对数据工程、RL的一切思考和实践,而其他论文都像是按部就班的后来之作,solid的工作是今天流量爆炸的基础 二、GPU ownership ≠