马东锡 NLP 🇸🇪2025-05-01 03:38:52「DeepSeek, Reasoning」论文 DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition 用"sorry"做占位符,sorry,除了硬核,无法可说。 DeepSeek这篇在reasoning的追求上,到了一个让预览#DeepSeek#reasoning
马东锡 NLP 🇸🇪2025-04-30 04:36:50「Qwen3, Token, Agent」分析 added_tokens, 如主板上的卡槽,预留大模型新功能空间。 昨天Qwen3发布,最亮眼的是,原生支持agentic tool call以及MCP。这篇分析,主要从tool call入手,了解大模型中added_tokens的作用和意义。 每当大模型发布,我都会打开它的tokenizer.json去看added_tokens。 adde预览#Qwen3#大模型#MCP
马东锡 NLP 🇸🇪2025-04-26 21:32:50读书笔记:当 LLM 成为 Agent——从自然语言到“协议语言”的演化 这两周选了四篇极其出色的文章做了分享,ReSearch, ReTool, APR 和 PASTA。 它们虽然解决的具体问题不相同,但 general 的目标都一致,即让LLM知道 when and how 做决策,这就是agent的核心,要做精准的决策。 而这种精准与人类语言的模糊性不一致,但 LLM 的 token 预览#LLM#agent#自然语言处理
马东锡 NLP 🇸🇪2025-04-22 04:30:13「Agent, RAG, Reasoning」论文 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning ReSearch,充满了 ReAct 的影子。它教会模型“何时求助于世界”;但局限在于,ReSearch 只能依赖一种工具。 作者提出了一种创新的框架,名为 ReSearch,旨在预览#agent#RAG#reasoning
马东锡 NLP 🇸🇪2025-04-17 06:14:42「codex, ACI, Agent」论文 SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering 从 Human‑Computer Interaction (HCI) 到 Agent‑Computer Interaction (ACI) —— AI IDE 的基石与框架 今天 OpenAI 开源了预览#Codex#ACI#agent
马东锡 NLP 🇸🇪2025-04-15 04:02:30「LLM, Agent」论文 MOSAIC: Modeling Social AI for Content Dissemination and Regulation in Multi-Agent Simulations 有趣paper,Multi Agent能否模拟“社会实验沙盒”? 这篇论文做了一件有趣的事,用LLM 扮演一群虚拟用户,在模拟社交平台上行为。 具体来说,MOSAIC 构建预览#多智能体#社会实验#社交平台
马东锡 NLP 🇸🇪2025-04-14 04:26:54「LLM, Reasoning」论文: (How) Do reasoning models reason? “真正的智能,是让模型在生成时就做出正确选择,而不是事后去验证哪个选项是对的。” 作者Subbarao Kambhampati,我不完全同意他,但我很喜欢他。2024年ACL Keynote,他批评当前对 Chain of Thought 的信仰如同宗教。——我们喜欢看到推理的样子,但并预览#LLM#reasoning#智能
马东锡 NLP 🇸🇪2025-04-09 03:42:53「LLM, Reasoning」论文: Rethinking Reflection in Pre-Training 预训练卷土重来,reasoning 时代神奇的 “wait” 再现。 本周我最喜欢的一篇论文来了。 来自 Essential AI,由 Ashish Vaswani 主导,对写过论文的人来说,这个引用太熟悉了 (Vaswani et al., 2017), Transforme预览#预训练#推理#论文
马东锡 NLP 🇸🇪2025-04-08 03:15:18「Agent, Reasoning」论文: Generative Verifiers: Reward Modeling as Next-Token Prediction 拟人化的 reward model,超越机械的打分,一个非常聪明的方法。 之前的分享中提到过,在 Large Reasoning Model 时代,RL 的方法几乎都是 Reinforcement Learning with预览
马东锡 NLP 🇸🇪2025-04-04 17:33:30「LLM x RL」DeepSeek 最新论文:Inference-Time Scaling for Generalist Reward Modeling 在 RL 中,Reward Modeling(RM)是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分,从而调整 LLM 的 policy,使其更符合 RM 设定的要求,比如更强的 reasoning 能力。 针对特定任务(预览#LLM#RL#RewardModeling
马东锡 NLP 🇸🇪2025-04-02 06:34:00「LLM, Agent, RL的关系」 在LLM的语境下,Agent是能理解问题,自主进行推理(Reasoning),并采取行动的系统。你可以把它想象成一个非常聪明的助手,当你提出复杂问题时,它不会立即给出答案,而是会在内心进行推理和规划(Planning),再给出最终决定。 如果我们回顾prompt engineering中提高LLM Reasoning能力的方法,如Self-Consis预览#LLM#agent#RL
马东锡 NLP 🇸🇪2025-03-29 04:10:35「Agent」论文:Executable Code Actions Elicit Better LLM Agents 从 ReAct 到 CodeAct 如果让我在所有 LLM 论文中选择我最喜欢的一篇,2022 年的 ReAct 绝对是前三名之一。 ReAct 大道至简,天才般地将复杂的强化学习(RL)过程,通过口头表达的方式表现出来,至今依然是 Agent 项目中最简单、最有效、最稳健的预览#agent#LLM#React
马东锡 NLP 🇸🇪2025-03-20 22:59:17更强的reasoning, 更好的Agent 论文分享: Thinking Machines: A Survey of LLM based Reasoning Strategies 在我们开发Agent的项目的时候,需要 更好的LLM reasoning的能力,以获得更高的任务完成准确率。 那么有哪些方法可以增强LLM的reasoning能力呢? 沿着之前我分享的Testing time s预览#reasoning#LLM#agent
马东锡 NLP 🇸🇪2025-03-20 06:31:53LRM论文选读:START: Self-taught Reasoner with Tools 这篇文章介绍了一种构建特定任务、私域Large Reasoning Model的有效方法,主要方法是微调,而且没有使用reinforcement learning,但却有非常类似reinforcement learning with human feedback的特征。 关键词有二: Test-ti预览#微调#论文选读
马东锡 NLP 🇸🇪2025-03-19 15:55:38Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。 但RL专业性非常强,去参加ML的会议时,专门做RL的研究员都现场拿着笔纸推算数学公式,掌握起来学习难度较高。 分享一本RL的入门教材,从RL基础MDP,PPO,直到跟LLM结合,如RLHF,都有讲解,深入浅出。 Reinforcement Learning: An O预览#强化学习#大型语言模型#RLHF
马东锡 NLP 🇸🇪2025-03-17 07:10:45大语言模型 post-training 的变迁,从 Large Language Model (LLM) 到 Large Reasoning Model (LRM) 本周推荐论文:POST-TRAINING OF LARGE LANGUAGE MODELS Post-training,本质是在做一件事,即如何运用 LLM 的 pretrained knowledge 来解决实际任务,具体的方法预览#大语言模型#后训练#POST-TRAINING
马东锡 NLP 🇸🇪2025-03-16 07:07:32从 Chain of Thought 到 aha moment和wait,看大模型的 test time scaling和深度思考 大模型们在过去的一年,都有了自己的deep search, think, reasoning, 深度思考...等关键词或者产品。 作为NLP从业者,我都会禁不住问自己,这都是些啥...😅今天就来解读这个问题,这些产品的所有本质,来自一个学术词汇,即test time预览#深度思考#大模型#NLP