马东锡 NLP 🇸🇪发布的内容- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

马东锡 NLP 🇸🇪

统计数据

33

文章

0

粉丝

0

获赞

39

阅读

马东锡 NLP 🇸🇪

2周前

Kimi K2 的一大亮点，是将文本任务里基于 token 的处理思路，成功迁移到 Agentic 场景中的 tool-call 级别：在 Agentic 任务中，tool call 就相当于“行动 token”。什么意思呢？解释如下：在文本任务中: CoT 是一串 token 而在Agentic 场景中： CoT 是一段 tool-call 序列，即planning 在文本任务中：用BLEU 或ROUGE等衡量生成文本与黄金答案在 token或字符层面的相似度，如具体的machine translation, summarization 等任务。在Agentic 场景中 Process Accuracy，用来衡量实际 tool-call 序列与理想动作轨迹的匹配度，颗粒度（这个词挺合适的😅）是tool call 级别的。如此一来，Kimi K2 在Agentic 场景中实现了与传统 NLP 的联系，使模型的规划与执行得以像文本生成那样可度量和优化。

马东锡 NLP 🇸🇪

2周前

读了 Kimi K2 的 blog，Agentic Capabilities 令人印象深刻。如blog中所说，Kimi K2 借鉴了ACEBench，在evaluation上，不仅衡量端到端 End Accuracy，针对每一步tool call也给出 Process Accuracy，这种对process的重视，能显著提升 LLM 的 Planning 能力。所以，JavaScript Minecraft 和 RustFlask的例子，醒目的planner把一步步的计划放在最前面。题外话，这种planner + excution的方式，几乎就是 ReWOO。我日常用的agent workflow，也几乎只用两种，ReAct + ReWOO。

马东锡 NLP 🇸🇪

3周前

「 Deep Research, WebDancer, WebSailor 」 - 问：“一部知名电视剧：女二 1993 年入行；女一现任丈夫是浙江湖州人；男一六年后登上春晚。剧名是什么？” - 答案：父母爱情这种题目来自 BrowseComp-ZH，是典型的检测模型 “超级深度” (Level-3) 的 Deep Research 能力的benchmark。分享两篇文章 WebDancer 和 WebSailor 。两篇文章介绍了如何端到端训练一个 Deep Research Agent ，以及，如何将这种 Web Agent 推向 BrowseComp - en/zh 等超深基准。数据方面： WebDancer 通过构建 CRAWLQA和E2HQA，扩大难度渐进的数据量。 WebSailor 则用 SailorFog-QA，人为构造 Level-3 任务。训练方面： WebDancer和WebSailor都采用ReAct框架，以及类似的post training recipe （SFT + On-policy RL）。 WebDancer 强在 GAIA/WebWalker 这类中等深度任务；而WebSailor 将优势推向 BrowseComp - en/zh 基准。非常solid的工作！

马东锡 NLP 🇸🇪

3周前

为什么要读AI论文？如果你在2022年读懂了ReAct，甚至读了我2023年初写的关于ReAct的post，你或许已经领先了现在大大小小Agent公司两年。如果你在2024年读了SWE Agent并开始做你自己的CLI Agent，今年你或许已经开始收获资本的关注。今年如果你认真读了Agentic LLM 的论文，或许…？大多数博士在四五年的candidate生涯里，只会有四到五篇文章，这几篇文章几乎凝集了他/她全部的巅峰智慧，很多预知和提示了未来的趋势。这些论文是真正的黄金钻石，而且几乎完全免费。

马东锡 NLP 🇸🇪

3周前

「Sentient Agent, 情绪价值」为什么大模型总是那么有同理心，会提供情绪价值？分享两篇文章，关注 LLM 智商之外的另外一个维度，情商，即情绪价值的能力。 [ 论文 1 ] Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [ 论文 2 ] Reinforcement Learning with Verifiable Emotion Rewards 先看 [ 论文 1 ] 的SAGE，找到量化LLM情商指数的心理学理论基础：BLRI 与 Rogers/Kolden 共情指标 BLRI，有四个维度：同理理解、尊重感、真实一致性、无条件积极关注 Rogers/Kolden，关注三个维度：自然流畅、专注力、深度连接 SAGE把 LLM 推理生成的 0–100 分的Emotion Score，用 BLRI 和 Rogers-Kolden 三维共情指标做外部校标有了SAGE，为认知评估流程提供了内部一致性，意为着可以为情绪打分的Sentiment Agent成为可能，即Sentient Agent as a Judge。于是[ 论文 2 ]来了，依托 Sentiment Agent，让情绪分变成可用奖励，让小模型也可以高情商。模型生成-> Sentient Agent 更新情绪 -> 回合奖励；终局 eT/100 作为整段对话的 PPO / GRPO 目标。读完论文的最大收获，每天默念BLRI和Rogers/Kolden，让自己学会提供情绪价值：😀 同理理解尊重感真实一致性无条件积极关注自然流畅专注力深度连接

马东锡 NLP 🇸🇪

1个月前

贴一段我自己的phd论文对distribution hypothesis的解释

马东锡 NLP 🇸🇪

1个月前

「 SWE Agent, Data Scaling Law 」 Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs Data scaling law，只要数据继续增长，SWE Agent 的性能几乎呈 log-linear上升，且尚未见饱和。作者构建全自动、执行可验证的data pipeline，构建了Skywork-SWE 数据集，并验证了data scaling law 在 SWE 任务上的适用性。值得注意的是，作者发现“长上下文与多轮交互” 对 Agent 表现起到关键作用。将 rollout ( try-observe-edit-test) 轮数从 10 增至 100，可带来近 10 pp 的解决率增益。

马东锡 NLP 🇸🇪

1个月前

SWE Agent 的文章带来CodeX，ClaudeCode，Gemini CLI，充分说明了什么是高水平的有价值的文章。在Chatbot泛滥的 Human Computer Interaction 交互中，SWE Agent就是要提出Agent Computer Interface，让human out of the loop。超越方法，是思想。有思想的文章和产品才更有价值。

AI编程工具激战：Claude Code、Gemini Cli崛起· 361 条信息

#AI编程：Kimi搅局，Claude封号，群雄逐鹿· 498 条信息

#SWE Agent #Agent Computer Interface #人机交互 #自动化 #高价值

马东锡 NLP 🇸🇪

1个月前

ClaudeCode 是继CodeX后又一个ACI (Agent Computer Interface) 范式的Code Agent，面向CLI而非GUI。这一定是未来Code Agent的形态，既然人一行也代码也不想写了，那就不要让GUI影响Agent的工作效率了。 SWE系列paper含金量在持续增加。

AI编程工具激战：Claude Code、Gemini Cli崛起· 361 条信息

#AI编程：Kimi搅局，Claude封号，群雄逐鹿· 498 条信息

#ClaudeCode #code Agent #ACI范式 #CLI #SWE系列paper

马东锡 NLP 🇸🇪

1个月前

看了一些 Agent 项目，忽然发现一个问题。目前 LLM Agent 通过 tool call 调用下游 API，不管是 REST 还是 gRPC，这套最佳实践诞生 Agent 之前，交互单元仍以“资源”或“函数”为核心，主要面向人类开发者。在 Agent 项目中，API 接口应从“数据 - 方法” 转变到 “意图 - 动作”，成为 Agent 的行动指南。Agent 真正需要的是可直接组合成任务计划的高阶动作，以及精炼且可追踪的环境状态，而不是原始 DOM 或太细节的 CRUD。已经看到一些论文开始提出这些问题，接下来会关注这个话题。

#Agent项目 #LLM #API接口 #REST #gRPC #人类开发者 #意图-动作 #数据-方法

马东锡 NLP 🇸🇪

1个月前

「 Parallel Reasoning, LLM」 Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation Multiverse：让模型自己决定“何时拆分、如何并行、何时合并”，把经典 MapReduce 范式内化到生成过程中。 “在无限的多元宇宙中，每一种可能，终将在某个世界发生。” “ In an infinite multiverse, everything that can happen does happen—somewhere. ” 为了让模型 “自己决定” parallelism，作者在三个维度上做创新：1）使用 “协议 token” + 2）修改 Attention 机制 + 3）SGLang 实现系统调度。 “协议 token”： Map： <Parallel><Goal><Outline> 拆分任务 Process： <Path i> 线程并行解子任务 Reduce： <Conclusion> + </Parallel> 合并结果 Multiverse Attention：改写注意力掩码同时调整相对位置编码，让Transformer 内隔离并行分支。在 SGLang 之上实现解释器+调度器：监听标签即刻复制 KV-Cache，多个子路径真正并行解码，结束后自动合并并恢复主线。与之前关于Parallel的优秀工作（如 APR, PASTA）相比，Multiverse 在数据 + 注意力修改 + 系统上做了三位一体的协同设计，赋予了模型在处理 parallelism更加 general 和scalable 的能力。

#LLM #Parallel Reasoning #Multiverse #MapReduce #Language Models #Generation Process

马东锡 NLP 🇸🇪

1个月前

「 Vibe Coding, LLM Coding 」 Training Language Models to Generate Quality Code with Program Analysis Feedback Vibe coding 的人们岁月静好，因为总有些出色的工作如 ReaL 在负重前行。 ReaL 让 Vibe Coding 不止于功能正确，更实现了代码的安全性与可维护性提升。作者提出 ReaL (Reinforcement rEwards from Automated program anaLysis)，以解决 vibe coding 中 “写得对” 和 “写得好 ” 两个目标的割裂问题，让模型每写出一段代码，既要通过单元测试，又要通过质量静态分析。针对于静态分析，目标通过自动检出 18 种 CWE 安全漏洞 + Python 代码可维护性问题： - 安全分析：基于信息流追踪，将用户输入视为 source，敏感调用视为 sink，检测未清洗数据是否可达，识别如 SQL 注入等漏洞。 - 可维护性分析：利用 MyPy 类型检查，发现类型缺失、注解错误等问题。配合 PPO 优化，设计混合reward：质量 reward：若 Detector 未发现任何安全 / 可维护性缺陷，则记正奖励，否则零分。功能 reward：统计 Unit test 通过率 (tests passed / N)。 Vibe coding 这种凭感觉coding的方式，容易产出能跑但不安全/不可维护的代码。但 ReaL 的让代码质量成为奖励之一，为 vibe coding 带来可靠的护栏。岁月静好，vibe coding！

#VibeCoding #LLMCoding #ProgramAnalysis #QualityCode #real #CodeSafety #CodeMaintainability

马东锡 NLP 🇸🇪

2个月前

想起一个瞬间：为朋友公司做ICT Agent项目时，初代版本目标是取代一线运维工程师。他们的日常工作仅是根据网络拓扑ping和trace几个关键IP，监控带宽，执行扩容，简单、重复。为设计推理路径，公司召集这些工程师，让他们梳理任务、总结流程，以便优化Agent构建。他们其中有些人似乎隐约察有些危机，但别无选择。最残酷的事，他们不得不为这个代替自己的agent出谋划策，甚至做 ab testing。他们的技能如铁锈剥落，也许不是现在，但终将湮没。

#ICT #人工智能 #自动化 #工作替代 #运维工程师 #网络监控

马东锡 NLP 🇸🇪

2个月前

OpenAI 悄然隐藏CoT推理过程，逐渐走向完全黑箱化。想从 OpenAI 蒸馏 Agentic Reasoning 过程，变的非常困难。另一方面，近期的几篇 LLM RL 的论文的可靠性受到质疑，让使用开源的 Qwen 模型的工作变得似乎意义虚无化。另外，刷榜benchmarking的开源模型，又有多少存在 data contamination 的问题？闭源的不让蒸馏，开源的又不完全可靠。在LLM, Agent 一片火热的氛围下，benchmarking通货膨胀，AI 研究员除了收获了推特上的点赞，是否更迷茫了？

#AI乱象不止：内容注水，隐私堪忧· 151 条信息

#OpenAI黑箱化 #Agentic Reasoning #LLM RL质疑 #Qwen模型 #开源模型 #data contamination #刷榜benchmarking

马东锡 NLP 🇸🇪

2个月前

「RLVR, Reasoning」 Spurious Rewards: Rethinking Training Signals in RLVR 当随意的奖励信号仍可以大幅提升模型性能，就得重新思考：到底是RL在学习，还是在放大某种“先验”行为。 "RLVR must somehow be surfacing useful reasoning representations learned during pretraining." 预定本周最佳论文！对 Qwen2.5-Math 系列，作者使用与正确性几乎无关、甚至负相关的“随意奖励”也能把 MATH-500 的准确率大幅提升。读完论文，觉得精彩，更觉得作者非常 “蓄意” 😆。 “蓄意”地挑选“先验”模型和“非先验”模型： - 选 Qwen 2.5-Math（自带大量 Python 链式推理） - 选 Llama 3 / OLMo 2（通用模型、少或劣代码） “蓄意”地验证并凸显两件事： - RLVR 像放大器：在 Qwen 上，即便奖励随机或错误，GRPO 的裁剪也会“放大”如 coding 这一高概率、高正确率的行为，准确率随之增长。 - 先验缺失就失效：Llama/OLMo 没有或只会 Bad-Code，被放大的只是噪声，成绩持平或下降。严谨的实验支持了 RLVR 主要在 “放大” 预训练潜能而非教授新能力的观点。作者同样建议跨模型、跨任务验证与深入理解模型先验，不要只盯着单一模型做漂亮数值提升的工作，因为那可能根本没有意义。那些围绕Qwen模型，精心构造奖励函数的研究员们，瑟瑟发抖中。

#RLVR #SpuriousRewards #DeepLearning #reasoning #TrainingSignals #MachineLearning #ModelPerformance

马东锡 NLP 🇸🇪

2个月前

思科的Agent是典型的垂直Agent例子。其护城河不是agent work flow，而是网络虚拟化这套API，是ICT行业多年从On-Premise到cloud native转型的成果。 ICT的厂商谁没有完成cloud native的转型，谁就不可能把AI融合到它的产品中。思科的例子，也应用于其他领域。这个阶段，tool是垂直Agent的护城河。

#思科 #agent #网络虚拟化 #API #ICT行业 #On-Premise #Cloud Native #AI融合 #护城河 #转型

马东锡 NLP 🇸🇪

3个月前

「DeepSeek, Reasoning」论文 DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition 用"sorry"做占位符，sorry，除了硬核，无法可说。 DeepSeek这篇在reasoning的追求上，到了一个让普通老百姓不能理解的程度。 DeepSeek 的一系列推理模型，已经用test time scaling的方法，证明它有做奥赛数学题的reasoning能力。但这不够，这篇论文不要已经work的非正式性自然语言推理过程，一定要formal theorem proving，要用数学正式表达的形式化推理，。怎么评价呢，“挺卷的反正就” 。方法上，DeepSeek把“非正式分解 + 递归求解 + 强化学习”整合为一条pipeline： - DeepSeek-V3 先用自然语言写出解题思路，同时把每一步翻译成 Lean 子目标（以 sorry 结尾）。 - 一个 7B 参数的 prover 模型递归地填补这些 sorry，得到完整 Lean 证明。 - 拼接后的“CoT + 正式证明”作为冷启动数据，再用 RL 微调，显式奖励"证明结构与分解保持一致"。看完论文，一头雾水，为啥用sorry做占字符？问了一下专门做数学研究的朋友，才知道，微软的Lean是专门用来做交互式地构造严谨证明，sorry就是Lean的本身对数学推导的占字符。😱 读完其他优秀的论文，我总会感叹exciting，amazing。这篇只有，无法可说，sorry....

#DeepSeek #reasoning #Formal Mathematical Reasoning #Reinforcement Learning #Subgoal Decomposition

马东锡 NLP 🇸🇪

3个月前

「Qwen3, Token, Agent」分析 added_tokens，如主板上的卡槽，预留大模型新功能空间。昨天Qwen3发布，最亮眼的是，原生支持agentic tool call以及MCP。这篇分析，主要从tool call入手，了解大模型中added_tokens的作用和意义。每当大模型发布，我都会打开它的tokenizer.json去看added_tokens。 added_tokens的意义在于，在LLM的vacabulary中添加特殊token，我自己称之为 “协议token”，这部分token不会被BPE分词，会完成输出，目的就是规则性地提示大模型此处要进行特别的功能，比如tool call和thinking。当我们打开Qwen3的tokenizer.json，会很看十几个added_tokens，我把它们总结如下，并加上我对他们功能的理解和猜想：普通会话类： <|endoftext|> <|im_start|> <|im_end|> ：会话边界 Tool call，Agent类: <tool_call> / </tool_call> ：函数执行JSON <tool_response> / </tool_response>：工具执行结果 <think> / </think>：思考短评： [像不像Paper: ReCall？参考我前一篇分享] 多模态类： <|vision_start|End>: 预留视觉空间 <|image_pad|>：预留图片空间 <|video_pad|>：预留视频空间短评：Qwen3只支持文本，但未来一定会多模态！代码和RAG类： <|fim_prefix|>：代码类 <|repo_name|>：代码repo <|file_sep|>：大文件比喻的来说，这些added_token就像是计算机主板的卡槽，为新的功能，新的性能，提前预留空间。比如tool call，agent类，Qwen3已经支持，那就说明这个卡槽被利用，如何实现的，就是training recipe (SFT+RL)，具体的可以参考我分享的ReCall, ReSearch, ReTool, APR, PASTA等文章。那Qwen3是如何支持MCP的呢？一个完整例子用户问题：When will the ISS fly over Stockholm next, and could you add a calendar reminder for me? 在mcp server中定义了两个tool来追踪国际空间站： def get_next_iss_pass(city: str) -> dict: def add_calendar_event(title: str, datetime_utc: str) -> str Jinja template会直接把用户的问题结合added_token，render给大模型： <|im_start|>user When will the ISS fly over Stockholm next, and could you add a calendar reminder for me? <|im_end|> <|im_start|>assistant <think>I need an orbital pass → then a calendar entry.</think> <tool_call>{"name":"get_next_iss_pass","arguments":{"city":"Stockholm"}} </tool_call> <|im_end|> 工具get_next_iss_pass的返回结果，直接给mcp host side， <tool_response>{"datetime_utc":"2025-04-30T19:12:00Z"}</tool_response> <|im_end|> 然后继续触发下一个tool call。喜欢钻研的朋友，会发现其实DeepSeek R1也有类似的add_token, "<｜tool▁calls▁begin｜>", 但它不支持mcp，因为它只是预留了，并没有在实际训练中让LLM跟mcp互动。希望看完这篇分享的你，明白了added_token是什么，你也许也更加深刻地理解了我之前分享的一系列“协议token”的文章，ReCall, ReSearch, ReTool, APR, PASTA.

#Qwen3 #大模型 #agentic tool call #MCP #added_tokens

马东锡 NLP 🇸🇪

3个月前

读书笔记：当 LLM 成为 Agent——从自然语言到“协议语言”的演化这两周选了四篇极其出色的文章做了分享，ReSearch, ReTool, APR 和 PASTA。它们虽然解决的具体问题不相同，但 general 的目标都一致，即让LLM知道 when and how 做决策，这就是agent的核心，要做精准的决策。而这种精准与人类语言的模糊性不一致，但 LLM 的 token 与人类的语言一致性更强，所以 LLM 的输出具有一定的模糊性，作为 Agent , 在做上述精准决策的时候就会出现问题。于是四篇文章的方法在思想上完全一致，即在自然语言中，插入“协议 token”，让自然语言更有结构化，更偏近机器语言。 PASTA，引入 <<promise>> <<async>> <<sync>>，来完成精准的切换异步/同步解码。 APR，引入spawn() / join()，来决策何时并行／收束多推理线程。 ReSearch， <think> <search> <result> ，来决策何时搜索、何时用结果。 ReTool，引入<code> <interpreter>，来决策何时执行代码解释器。这些“协议 token”，并不存在于人类的自然语言中，但却跟机器语言息息相关。它们都用显式标记把“语言”切片成更像API 调用或并发原语的片段，让模型能在生成阶段“自编写脚本”，再由调度器或工具链执行。人类语言 vs. 机器语言：人类语言：高容错、重语义、含糊其辞，适合表达不确定性与情感。机器语言：零歧义、结构化、强约束，适合编排确定性任务。当 LLM 既要与人类沟通又要驱动工具，它必须在两种范式间切换。于是“协议语言（Protocol Language）”就必然出现了：在自然语言流中嵌入可解析的指令标记，既让人类读得懂，又让机器能精准执行。一些展望：未来的一段时间，类似的在自然语言中插入“协议 token”的工作一定会越来越多。未来的“协议 token”可能携带类型、权限、资源预算等元数据，让决策粒度从 When 进一步细化到用多少 computing resource 。目前的“协议 token”还基本停留在，一套协议解决一个问题的阶段。如果LLM的generalization继续演化，可以会出现一套协议多个问题，或者多套协议多个问题的形态。当 LLM 从Chatbot演化为Agent，语言的角色正在从沟通媒介变成执行协议。但自然语言不会被淘汰，而是被包裹进更精确、更可组合的结构化符号中——让instruct与action在同一个文本流里无缝衔接。

#LLM #agent #自然语言处理 #协议语言 #去模糊化 #决策

马东锡 NLP 🇸🇪

3个月前

「Agent, RAG, Reasoning」论文 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning ReSearch，充满了 ReAct 的影子。它教会模型“何时求助于世界”；但局限在于，ReSearch 只能依赖一种工具。作者提出了一种创新的框架，名为 ReSearch，旨在通过强化学习（RL）训练 LLM 在推理过程中有效地反复利用 search API 完成任务。从任务形式上，它解决的是增强LLM+ RAG的问题，但并不同于基于 embedding 的单轮相似度检索方法。它关注的是多次 query、反复调用 search API 来完成信息查询任务。并不同于基于embedding去单次算相似度的方法，它解决的是多次query，反复调用search API完成外部信息查询的问题。而反复调用 API，涉及推理能力去决策调用的时机，以及生成调用的参数 —— 这是一个典型的 agent + function calling 场景。 ReSearch目标将这种search的reasoning能力通过RL学到。具体来说，ReSearch 采用了专门为搜索功能设计的训练模版： <think>...</think>：表示模型的思考过程； <search>...</search>：表示模型发起的搜索查询； <result>...</result>：表示搜索引擎返回的结果； <answer>...</answer>：表示模型给出的最终答案。特别地，ReSearch 的奖励函数不是仅仅基于答案对错，而是采用 rule-based 的组合机制：基于答案的 F1 相似度 + 输出格式是否符合模板，以此优化 policy，微调语言模型参数。此时不免再次提及 ReAct：ReSearch 充满了 ReAct 的循环影子——： Reasoning：模型的思考过程； Action：模型发起的调用； Observation：工具返回的反馈。 ReAct 是神作，它以 verbal reasoning （人话）的方式，将原本充满数学公式的 RL 概念转化为语言链式推理，让 LLM 学会如何使用工具，优雅而简洁。一些思考： ReSearch 以及前几天分享的 ReTool 是非常类似的工作，它们都通过强化学习微调，将使用工具的能力内化于语言模型中，增强工具调用的鲁棒性。但它们的局限性也非常明显：ReSearch 和 ReTool 都只支持一种工具 —— search API 和 code interpreter。而 ReAct，通过 Prompt Engineering，就可以灵活调用多个外部工具。 ReSearch 和 ReTool 的 RL 框架是为“单工具、二选一调度”设计的。如果强行扩展为多工具，训练信号将更加稀疏、credit assignment 更加困难，其策略网络、reward assignment、以及 rollout 表达能力都需要重新设计。我们距离真正原生具备多轮、多工具能力的通用 Agent，还有一段距离。

#agent #RAG #reasoning #Research #React #强化学习 #大模型 #Reinforcement Learning #工具使用 #创新框架

马东锡 NLP 🇸🇪

3个月前

「codex, ACI, Agent」论文 SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering 从 Human‑Computer Interaction (HCI) 到 Agent‑Computer Interaction (ACI) —— AI IDE 的基石与框架今天 OpenAI 开源了 Codex CLI。这正是 NeurIPS 2024 论文 SWE‑agent 中提出的精彩概念 Agent‑Computer Interface（ACI）的一次产品级实践。 SWE‑agent = ReAct + CLI 原生 = ACI 1. ReAct：Thought → Action → Observation 在运行 Codex CLI 时，你会清晰看到经典的 ReAct 循环：这一流程与 SWE‑agent 在论文中描述完全一致： “At each step, SWE‑agent generates a thought and a command, then incorporates the feedback from the command’s execution in the environment (ReAct).” 2. CLI 原生：让 Linux CLI 成为Agent的工具 Codex CLI 构建在 Linux shell 之上，必要时会直接调CLI（如 sed, grep, pytest）完成代码检查与测试，对应论文中的另一句： “Built atop the Linux shell, SWE‑agent also allows access to common Linux commands and utilities when needed.” 3. 从思想上，SWE-agent提出了精彩的新概念，ACI。 LLM在编程场景中就像“新型用户”，需要专门为其量身定制的人机交互层——ACI。与HCI的不同之处在于： HCI 面向人类直觉，ACI 面向Agent推理； HCI用GUI追求“让人觉得好用”，ACI追求“让Agent更容易reasoning、有更简洁精确的context, 指令和工具”。 ACI的特点是：精简指令集合把嘈杂的Linux CLI抽象成少量高杠杆动作，降低回合数与成本。反馈充分且简洁固定格式 + 必要元数据，避免上下文膨胀。内置护栏语法 lint、无效编辑回滚，阻断错误连锁。值得一提的是，codex是纯CLI系统，是ACI的纯粹实践。其他如cursor，Windsurf或者是devin，是HCI和ACI的结合。但只从agent的角度来说，理解ACI才能更加当我们vibe coding的时候，到底是怎么回事。

#Codex #ACI #agent #SWE-agent #Human-Computer Interaction #Agent-Computer Interaction #AI IDE #OpenAI #开源

马东锡 NLP 🇸🇪

3个月前

「LLM, Agent」论文 MOSAIC: Modeling Social AI for Content Dissemination and Regulation in Multi-Agent Simulations 有趣paper，Multi Agent能否模拟“社会实验沙盒”？这篇论文做了一件有趣的事，用LLM 扮演一群虚拟用户，在模拟社交平台上行为。具体来说，MOSAIC 构建了一个Multi Agent的社交模拟系统：每个 agent 拥有独立画像，其行为由LLM驱动，不仅能点赞、转发、评论，还会为自己的行为给出解释。系统整体可用于测试不同的内容治理策略，例如模拟X的的 Community Notes。结果显示，Agent 在点赞、评论等行为上与人类高度相似；但 Agent 的行为解释与实际决策存在偏差。在方法上，这是对social science传统研究方法的大胆创新。然而，许多关键问题，即便在 LLM 自身的研究中未有答案，比如：Agent 是否能真正捕捉人类的情感与心理动机？是否能呈现社会关系中结构性的复杂交互？用multi agent来模拟大规模社会实验，似乎不可信；但若有一天它真的变得可信... Lost in thought...

#多智能体 #社会实验 #社交平台 #虚拟用户 #行为模拟 #论文研究 #LLM应用

马东锡 NLP 🇸🇪

3个月前

「LLM, Reasoning」论文： (How) Do reasoning models reason? “真正的智能，是让模型在生成时就做出正确选择，而不是事后去验证哪个选项是对的。” 作者Subbarao Kambhampati，我不完全同意他，但我很喜欢他。2024年ACL Keynote，他批评当前对 Chain of Thought 的信仰如同宗教。——我们喜欢看到推理的样子，但并未真正验证推理的实质。这篇论文，简直就是把当前 LLM 推理潮流一锅端，按住OpenAI o1 和 DeepSeek R1 提出了两个灵魂拷问： 1: Large Reasoning Model 是在推理还是在检索？作者认为，LRM 并非真正“推理”，它们的行为更像经过训练强化的“近似检索”系统。所谓“推理”，往往只是模型通过被筛选过的训练样本“生成看起来像推理的输出”。如果模型生成的候选解中压根就没有一个是对的，也就无法进行强化训练。这意味着 LRM 的“推理”质量依赖于它是否能撞上一个正确答案。 2: Chain of Thought 是否跟“思考相关”？作者认为，CoT,（如step-by-step 的文字、公式、甚至“wait...”、“aha moment”这类表述）并不能证明模型真的在“思考”，它们很可能只是模仿人类风格的产物——大型模仿模型（Large Mumbling Models, LMMs）。😂 例如，CoT可以胡说八道但仍“撞对”答案, 模型通过 RL 训练输出的CoT只要能让最终答案更准确，哪怕是乱码也无所吊谓。最后，此片论文同样是对test time scaling的犀利审视，test time scaling本质是把原本在“测试时”才能验证的东西，提前“编译”进了模型的生成过程中。换句话说，模型不是学会了推理，而是学会了如何在多次尝试中更容易猜对答案。这跟真正的智能背道而驰。按照作者的思路，当下post training的套路如下： - 测试阶段：拼命尝试多个答案 - 筛选阶段：用外部验证器选出对的那个 - 训练阶段：把这套套路“硬塞回生成器”，形成“像在思考的样子” 所以它不是真的学会了推理，而是学会了：如何让自己看起来像在推理，并增加猜中率。 Intelligence is the ability to shift the test part of generate-and-test into the generate part. inspriing!

#LLM #reasoning #智能 #模型 #Subbarao Kambhampati #ACL #Chain of Thought

马东锡 NLP 🇸🇪

3个月前

「LLM, Reasoning」论文： Rethinking Reflection in Pre-Training 预训练卷土重来，reasoning 时代神奇的 “wait” 再现。本周我最喜欢的一篇论文来了。来自 Essential AI，由 Ashish Vaswani 主导，对写过论文的人来说，这个引用太熟悉了（Vaswani et al., 2017）， Transformer 论文第一作者。论文提出一个非常重要的发现：LLM 在 pretraining 阶段就已经表现出跨任务、跨领域的 general reasoning 能力。更特别的是，一个简单的 token ——“wait”—— 可以作为 reflection trigger，显著提升模型的 reasoning 表现。相比当前主流的 post-training 方法，不断精细 reward model 的策略，这项工作跳出box，从新的角度审视大模型reasoning的问题。说实话，RL 的各种 reward 操作看得人有点累觉不爱，而且在提升 general reasoning 上已经逐渐显现出瓶颈 —— 许多方法仍然停留在 task-specific 的 math benchmark 上，并没有真正触及 reasoning 的本质：跨领域、跨任务、可迁移。相比之下，pretraining 的方法显得更为“neat” —— 不仅更敏捷，也更接近 LLM 的能力本源。 Make pretraining Great Again!

#预训练 #推理 #论文 #Essential AI #Ashish Vaswani #transformer

马东锡 NLP 🇸🇪

3个月前

「Agent, Reasoning」论文： Generative Verifiers: Reward Modeling as Next-Token Prediction 拟人化的 reward model，超越机械的打分，一个非常聪明的方法。之前的分享中提到过，在 Large Reasoning Model 时代，RL 的方法几乎都是 Reinforcement Learning with Human Feedback 的延展。只不过，后来的方法在思路上都是把 human feedback 替换成了 reward model。传统上，reward model 仅仅是一个打分模型，而这篇论文则把 reward model 从简单的打分模型，转变为 next-token 输出, 即超越机械生硬的打分，增添了文字，推理，或者rule。这大大提升了 reward model 的灵活性，因为可以把所有 prompting engineering 的技巧，比如 CoT、对打分的 reasoning 过程等都结合进来并输出，从来辅助打分。从思维方式上来看，这篇论文更倾向于将 RM 作为一个“人”来使用，非常聪明。可见，RM 上的创新将会是Large Reasoning Model重点的方法创新主题，拭目以待。

#Generative Verifiers #Reward Modeling #Next-Token Prediction #Large Reasoning Model #Reinforcement Learning