时政
财经
科技
虚拟货币
其他
登录
马东锡 NLP 🇸🇪
关注
统计数据
33
文章
0
粉丝
0
获赞
39
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
马东锡 NLP 🇸🇪
2周前
Kimi K2 的一大亮点,是将文本任务里基于 token 的处理思路,成功迁移到 Agentic 场景中的 tool-call 级别:在 Agentic 任务中,tool call 就相当于“行动 token”。 什么意思呢?解释如下: 在文本任务中: CoT 是一串 token 而在Agentic 场景中: CoT 是一段 tool-call 序列,即planning 在文本任务中: 用BLEU 或ROUGE等衡量生成文本与黄金答案在 token或字符层面的相似度,如具体的machine translation, summarization 等任务。 在Agentic 场景中 Process Accuracy,用来衡量实际 tool-call 序列与理想动作轨迹的匹配度,颗粒度(这个词挺合适的😅)是tool call 级别的。 如此一来,Kimi K2 在Agentic 场景中实现了与传统 NLP 的联系,使模型的规划与执行得以像文本生成那样可度量和优化。
分享
评论 0
0
马东锡 NLP 🇸🇪
2周前
读了 Kimi K2 的 blog,Agentic Capabilities 令人印象深刻。 如blog中所说,Kimi K2 借鉴了ACEBench,在evaluation上,不仅衡量端到端 End Accuracy,针对每一步tool call也给出 Process Accuracy,这种对process的重视,能显著提升 LLM 的 Planning 能力。 所以,JavaScript Minecraft 和 RustFlask的例子,醒目的planner把一步步的计划放在最前面。 题外话,这种planner + excution的方式,几乎就是 ReWOO。我日常用的agent workflow,也几乎只用两种,ReAct + ReWOO。
分享
评论 0
0
马东锡 NLP 🇸🇪
3周前
「 Deep Research, WebDancer, WebSailor 」 - 问:“一部知名电视剧:女二 1993 年入行;女一现任丈夫是浙江湖州人;男一六年后登上春晚。剧名是什么?” - 答案:父母爱情 这种题目来自 BrowseComp-ZH,是典型的检测模型 “超级深度” (Level-3) 的 Deep Research 能力的benchmark。 分享两篇文章 WebDancer 和 WebSailor 。 两篇文章介绍了如何端到端训练一个 Deep Research Agent ,以及,如何将这种 Web Agent 推向 BrowseComp - en/zh 等超深基准。 数据方面: WebDancer 通过构建 CRAWLQA和E2HQA,扩大难度渐进的数据量。 WebSailor 则用 SailorFog-QA,人为构造 Level-3 任务。 训练方面: WebDancer和WebSailor都采用ReAct框架,以及类似的post training recipe (SFT + On-policy RL)。 WebDancer 强在 GAIA/WebWalker 这类中等深度任务;而WebSailor 将优势推向 BrowseComp - en/zh 基准。 非常solid的工作!
分享
评论 0
0
马东锡 NLP 🇸🇪
3周前
为什么要读AI论文? 如果你在2022年读懂了ReAct,甚至读了我2023年初写的关于ReAct的post,你或许已经领先了现在大大小小Agent公司两年。 如果你在2024年读了SWE Agent并开始做你自己的CLI Agent,今年你或许已经开始收获资本的关注。 今年如果你认真读了Agentic LLM 的论文,或许…? 大多数博士在四五年的candidate生涯里,只会有四到五篇文章,这几篇文章几乎凝集了他/她 全部的巅峰智慧,很多预知和提示了未来的趋势。 这些论文是真正的黄金钻石,而且几乎完全免费。
分享
评论 0
0
马东锡 NLP 🇸🇪
3周前
「Sentient Agent, 情绪价值 」 为什么大模型总是那么有同理心,会提供情绪价值? 分享两篇文章,关注 LLM 智商之外的另外一个维度,情商,即情绪价值的能力。 [ 论文 1 ] Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [ 论文 2 ] Reinforcement Learning with Verifiable Emotion Rewards 先看 [ 论文 1 ] 的SAGE,找到量化LLM情商指数的心理学理论基础:BLRI 与 Rogers/Kolden 共情指标 BLRI,有四个维度: 同理理解、 尊重感、 真实一致性、 无条件积极关注 Rogers/Kolden,关注三个维度: 自然流畅、 专注力、 深度连接 SAGE把 LLM 推理生成的 0–100 分的Emotion Score,用 BLRI 和 Rogers-Kolden 三维共情指标做外部校标 有了SAGE,为认知评估流程提供了内部一致性,意为着可以为情绪打分的Sentiment Agent成为可能,即Sentient Agent as a Judge。 于是[ 论文 2 ]来了,依托 Sentiment Agent,让情绪分变成可用奖励,让小模型也可以高情商。 模型生成-> Sentient Agent 更新情绪 -> 回合奖励 ; 终局 eT/100 作为整段对话的 PPO / GRPO 目标。 读完论文的最大收获,每天默念BLRI和Rogers/Kolden,让自己学会提供情绪价值:😀 同理理解 尊重感 真实一致性 无条件积极关注 自然流畅 专注力 深度连接
分享
评论 0
0
马东锡 NLP 🇸🇪
1个月前
贴一段我自己的phd论文对distribution hypothesis的解释
分享
评论 0
0
马东锡 NLP 🇸🇪
1个月前
「 SWE Agent, Data Scaling Law 」 Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs Data scaling law,只要数据继续增长,SWE Agent 的性能几乎呈 log-linear上升,且尚未见饱和。 作者构建全自动、执行可验证的data pipeline,构建了Skywork-SWE 数据集,并验证了data scaling law 在 SWE 任务上的适用性。 值得注意的是,作者发现“长上下文与多轮交互” 对 Agent 表现起到关键作用。 将 rollout ( try-observe-edit-test) 轮数从 10 增至 100,可带来近 10 pp 的解决率增益。
分享
评论 0
0
马东锡 NLP 🇸🇪
1个月前
SWE Agent 的文章带来CodeX,ClaudeCode,Gemini CLI,充分说明了什么是高水平的有价值的文章。 在Chatbot泛滥的 Human Computer Interaction 交互中,SWE Agent就是要提出Agent Computer Interface,让human out of the loop。 超越方法,是思想。有思想的文章和产品才更有价值。
AI编程工具激战:Claude Code、Gemini Cli崛起· 361 条信息
#AI编程:Kimi搅局,Claude封号,群雄逐鹿· 498 条信息
#SWE Agent
#Agent Computer Interface
#人机交互
#自动化
#高价值
分享
评论 0
0
马东锡 NLP 🇸🇪
1个月前
ClaudeCode 是继CodeX后又一个ACI (Agent Computer Interface) 范式的Code Agent,面向CLI而非GUI。 这一定是未来Code Agent的形态,既然人一行也代码也不想写了,那就不要让GUI影响Agent的工作效率了。 SWE系列paper含金量在持续增加。
AI编程工具激战:Claude Code、Gemini Cli崛起· 361 条信息
#AI编程:Kimi搅局,Claude封号,群雄逐鹿· 498 条信息
#ClaudeCode
#code Agent
#ACI范式
#CLI
#SWE系列paper
分享
评论 0
0
马东锡 NLP 🇸🇪
1个月前
看了一些 Agent 项目,忽然发现一个问题。 目前 LLM Agent 通过 tool call 调用下游 API,不管是 REST 还是 gRPC,这套最佳实践诞生 Agent 之前,交互单元仍以“资源”或“函数”为核心,主要面向人类开发者。 在 Agent 项目中,API 接口应从“数据 - 方法” 转变到 “意图 - 动作”,成为 Agent 的行动指南。Agent 真正需要的是可直接组合成任务计划的高阶动作,以及精炼且可追踪的环境状态,而不是原始 DOM 或太细节的 CRUD。 已经看到一些论文开始提出这些问题,接下来会关注这个话题。
#Agent项目
#LLM
#API接口
#REST
#gRPC
#人类开发者
#意图-动作
#数据-方法
分享
评论 0
0
马东锡 NLP 🇸🇪
1个月前
「 Parallel Reasoning, LLM」 Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation Multiverse:让模型自己决定“何时拆分、如何并行、何时合并”,把经典 MapReduce 范式内化到生成过程中。 “在无限的多元宇宙中,每一种可能,终将在某个世界发生。” “ In an infinite multiverse, everything that can happen does happen—somewhere. ” 为了让模型 “自己决定” parallelism,作者在三个维度上做创新:1)使用 “协议 token” + 2)修改 Attention 机制 + 3)SGLang 实现系统调度。 “协议 token”: Map: <Parallel><Goal><Outline> 拆分任务 Process: <Path i> 线程并行解子任务 Reduce: <Conclusion> + </Parallel> 合并结果 Multiverse Attention: 改写注意力掩码同时调整相对位置编码,让Transformer 内隔离并行分支。 在 SGLang 之上实现解释器+调度器: 监听标签即刻复制 KV-Cache,多个子路径真正并行解码,结束后自动合并并恢复主线。 与之前关于Parallel的优秀工作(如 APR, PASTA)相比,Multiverse 在数据 + 注意力修改 + 系统上做了三位一体的协同设计,赋予了模型在处理 parallelism更加 general 和scalable 的能力。
#LLM
#Parallel Reasoning
#Multiverse
#MapReduce
#Language Models
#Generation Process
分享
评论 0
0
马东锡 NLP 🇸🇪
1个月前
「 Vibe Coding, LLM Coding 」 Training Language Models to Generate Quality Code with Program Analysis Feedback Vibe coding 的人们岁月静好,因为总有些出色的工作如 ReaL 在负重前行。 ReaL 让 Vibe Coding 不止于功能正确,更实现了代码的安全性与可维护性提升。 作者提出 ReaL (Reinforcement rEwards from Automated program anaLysis),以解决 vibe coding 中 “写得对” 和 “写得好 ” 两个目标的割裂问题,让模型每写出一段代码,既要通过单元测试,又要通过质量静态分析。 针对于静态分析,目标通过自动检出 18 种 CWE 安全漏洞 + Python 代码可维护性问题: - 安全分析:基于信息流追踪,将用户输入视为 source,敏感调用视为 sink,检测未清洗数据是否可达,识别如 SQL 注入等漏洞。 - 可维护性分析:利用 MyPy 类型检查,发现类型缺失、注解错误等问题。 配合 PPO 优化,设计混合reward: 质量 reward:若 Detector 未发现任何安全 / 可维护性缺陷,则记正奖励,否则零分。 功能 reward: 统计 Unit test 通过率 (tests passed / N)。 Vibe coding 这种凭感觉coding的方式,容易产出能跑但不安全/不可维护 的代码。但 ReaL 的让代码质量成为奖励之一,为 vibe coding 带来可靠的护栏。 岁月静好,vibe coding!
#VibeCoding
#LLMCoding
#ProgramAnalysis
#QualityCode
#real
#CodeSafety
#CodeMaintainability
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
想起一个瞬间: 为朋友公司做ICT Agent项目时,初代版本目标是取代一线运维工程师。 他们的日常工作仅是根据网络拓扑ping和trace几个关键IP,监控带宽,执行扩容,简单、重复。 为设计推理路径,公司召集这些工程师,让他们梳理任务、总结流程,以便优化Agent构建。 他们其中有些人似乎隐约察有些危机,但别无选择。最残酷的事,他们不得不为这个代替自己的agent出谋划策,甚至做 ab testing。 他们的技能如铁锈剥落,也许不是现在,但终将湮没。
#ICT
#人工智能
#自动化
#工作替代
#运维工程师
#网络监控
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
OpenAI 悄然隐藏CoT推理过程,逐渐走向完全黑箱化。想从 OpenAI 蒸馏 Agentic Reasoning 过程,变的非常困难。 另一方面,近期的几篇 LLM RL 的论文的可靠性受到质疑, 让使用开源的 Qwen 模型的工作变得似乎意义虚无化。 另外,刷榜benchmarking的开源模型,又有多少存在 data contamination 的问题? 闭源的不让蒸馏,开源的又不完全可靠。 在LLM, Agent 一片火热的氛围下,benchmarking通货膨胀,AI 研究员除了收获了推特上的点赞,是否更迷茫了?
#AI乱象不止:内容注水,隐私堪忧· 151 条信息
#OpenAI黑箱化
#Agentic Reasoning
#LLM RL质疑
#Qwen模型
#开源模型
#data contamination
#刷榜benchmarking
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
「RLVR, Reasoning」 Spurious Rewards: Rethinking Training Signals in RLVR 当随意的奖励信号仍可以大幅提升模型性能,就得重新思考:到底是RL在学习,还是在放大某种“先验”行为。 "RLVR must somehow be surfacing useful reasoning representations learned during pretraining." 预定本周最佳论文! 对 Qwen2.5-Math 系列,作者使用与正确性几乎无关、甚至负相关的“随意奖励”也能把 MATH-500 的准确率大幅提升。 读完论文,觉得精彩,更觉得作者非常 “蓄意” 😆。 “蓄意”地挑选“先验”模型和“非先验”模型: - 选 Qwen 2.5-Math(自带大量 Python 链式推理) - 选 Llama 3 / OLMo 2(通用模型、少或劣代码) “蓄意”地验证并凸显两件事: - RLVR 像放大器:在 Qwen 上,即便奖励随机或错误,GRPO 的裁剪也会“放大”如 coding 这一高概率、 高正确率的行为,准确率随之增长。 - 先验缺失就失效:Llama/OLMo 没有或只会 Bad-Code,被放大的只是噪声,成绩持平或下降。 严谨的实验支持了 RLVR 主要在 “放大” 预训练潜能而非教授新能力的观点。 作者同样建议跨模型、跨任务验证与深入理解模型先验,不要只盯着单一模型做漂亮数值提升的工作,因为那可能根本没有意义。 那些围绕Qwen模型,精心构造奖励函数的研究员们,瑟瑟发抖中。
#RLVR
#SpuriousRewards
#DeepLearning
#reasoning
#TrainingSignals
#MachineLearning
#ModelPerformance
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
思科的Agent是典型的垂直Agent例子。 其护城河不是agent work flow,而是网络虚拟化这套API,是ICT行业多年从On-Premise到cloud native转型的成果。 ICT的厂商谁没有完成cloud native的转型,谁就不可能把AI融合到它的产品中。 思科的例子,也应用于其他领域。 这个阶段,tool是垂直Agent的护城河。
#思科
#agent
#网络虚拟化
#API
#ICT行业
#On-Premise
#Cloud Native
#AI融合
#护城河
#转型
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
「DeepSeek, Reasoning」论文 DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition 用"sorry"做占位符,sorry,除了硬核,无法可说。 DeepSeek这篇在reasoning的追求上,到了一个让普通老百姓不能理解的程度。 DeepSeek 的一系列推理模型,已经用test time scaling的方法,证明它有做奥赛数学题的reasoning能力。 但这不够,这篇论文不要已经work的非正式性自然语言推理过程,一定要formal theorem proving,要用数学正式表达的形式化推理,。怎么评价呢,“挺卷的反正就” 。 方法上,DeepSeek把“非正式分解 + 递归求解 + 强化学习”整合为一条pipeline: - DeepSeek-V3 先用自然语言写出解题思路,同时把每一步翻译成 Lean 子目标(以 sorry 结尾)。 - 一个 7B 参数的 prover 模型递归地填补这些 sorry,得到完整 Lean 证明。 - 拼接后的“CoT + 正式证明”作为冷启动数据,再用 RL 微调,显式奖励"证明结构与分解保持一致"。 看完论文,一头雾水,为啥用sorry做占字符? 问了一下专门做数学研究的朋友,才知道,微软的Lean是专门用来做交互式地构造严谨证明,sorry就是Lean的本身对数学推导的占字符。😱 读完其他优秀的论文,我总会感叹exciting,amazing。 这篇只有,无法可说,sorry....
#DeepSeek
#reasoning
#Formal Mathematical Reasoning
#Reinforcement Learning
#Subgoal Decomposition
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
「Qwen3, Token, Agent」分析 added_tokens, 如主板上的卡槽,预留大模型新功能空间。 昨天Qwen3发布,最亮眼的是,原生支持agentic tool call以及MCP。这篇分析,主要从tool call入手,了解大模型中added_tokens的作用和意义。 每当大模型发布,我都会打开它的tokenizer.json去看added_tokens。 added_tokens的意义在于,在LLM的vacabulary中添加特殊token,我自己称之为 “协议token”,这部分token不会被BPE分词,会完成输出,目的就是规则性地提示大模型此处要进行特别的功能,比如tool call和thinking。 当我们打开Qwen3的tokenizer.json, 会很看十几个added_tokens,我把它们总结如下,并加上我对他们功能的理解和猜想: 普通会话类: <|endoftext|> <|im_start|> <|im_end|> :会话边界 Tool call,Agent类: <tool_call> / </tool_call> : 函数执行JSON <tool_response> / </tool_response>:工具执行结果 <think> / </think>: 思考 短评: [像不像Paper: ReCall? 参考我前一篇分享] 多模态类: <|vision_start|End>: 预留视觉空间 <|image_pad|>:预留图片空间 <|video_pad|>: 预留视频空间 短评:Qwen3只支持文本,但未来一定会多模态! 代码和RAG类: <|fim_prefix|>: 代码类 <|repo_name|>:代码repo <|file_sep|>:大文件 比喻的来说,这些added_token就像是计算机主板的卡槽,为新的功能,新的性能,提前预留空间。 比如tool call,agent类,Qwen3已经支持,那就说明这个卡槽被利用,如何实现的,就是training recipe (SFT+RL),具体的可以参考我分享的ReCall, ReSearch, ReTool, APR, PASTA等文章。 那Qwen3是如何支持MCP的呢? 一个完整例子 用户问题:When will the ISS fly over Stockholm next, and could you add a calendar reminder for me? 在mcp server中定义了两个tool来追踪国际空间站: def get_next_iss_pass(city: str) -> dict: def add_calendar_event(title: str, datetime_utc: str) -> str Jinja template会直接把用户的问题结合added_token,render给大模型: <|im_start|>user When will the ISS fly over Stockholm next, and could you add a calendar reminder for me? <|im_end|> <|im_start|>assistant <think>I need an orbital pass → then a calendar entry.</think> <tool_call>{"name":"get_next_iss_pass","arguments":{"city":"Stockholm"}} </tool_call> <|im_end|> 工具get_next_iss_pass的返回结果,直接给mcp host side, <tool_response>{"datetime_utc":"2025-04-30T19:12:00Z"}</tool_response> <|im_end|> 然后继续触发下一个tool call。 喜欢钻研的朋友,会发现其实DeepSeek R1也有类似的add_token, "<|tool▁calls▁begin|>", 但它不支持mcp,因为它只是预留了,并没有在实际训练中让LLM跟mcp互动。 希望看完这篇分享的你,明白了added_token是什么,你也许也更加深刻地理解了我之前分享的一系列“协议token”的文章,ReCall, ReSearch, ReTool, APR, PASTA.
#Qwen3
#大模型
#agentic tool call
#MCP
#added_tokens
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
读书笔记:当 LLM 成为 Agent——从自然语言到“协议语言”的演化 这两周选了四篇极其出色的文章做了分享,ReSearch, ReTool, APR 和 PASTA。 它们虽然解决的具体问题不相同,但 general 的目标都一致,即让LLM知道 when and how 做决策,这就是agent的核心,要做精准的决策。 而这种精准与人类语言的模糊性不一致,但 LLM 的 token 与人类的语言一致性更强,所以 LLM 的输出具有一定的模糊性,作为 Agent , 在做上述精准决策的时候就会出现问题。 于是四篇文章的方法在思想上完全一致,即在自然语言中,插入“协议 token”,让自然语言更有结构化,更偏近机器语言。 PASTA, 引入 <<promise>> <<async>> <<sync>>, 来完成精准的切换异步/同步解码。 APR,引入spawn() / join(), 来决策何时并行/收束多推理线程。 ReSearch, <think> <search> <result> , 来决策何时搜索、何时用结果。 ReTool, 引入<code> <interpreter>, 来决策何时执行代码解释器。 这些“协议 token”,并不存在于人类的自然语言中,但却跟机器语言息息相关。 它们都用显式标记把“语言”切片成更像API 调用或并发原语的片段,让模型能在生成阶段“自编写脚本”,再由调度器或工具链执行。 人类语言 vs. 机器语言: 人类语言:高容错、重语义、含糊其辞,适合表达不确定性与情感。 机器语言:零歧义、结构化、强约束,适合编排确定性任务。 当 LLM 既要与人类沟通又要驱动工具,它必须在两种范式间切换。于是“协议语言(Protocol Language)”就必然出现了:在自然语言流中嵌入可解析的指令标记,既让人类读得懂,又让机器能精准执行。 一些展望: 未来的一段时间,类似的在自然语言中插入“协议 token”的工作一定会越来越多。 未来的“协议 token”可能携带类型、权限、资源预算等元数据,让决策粒度从 When 进一步细化到用多少 computing resource 。 目前的“协议 token”还基本停留在,一套协议解决一个问题的阶段。如果LLM的generalization继续演化,可以会出现一套协议多个问题,或者多套协议多个问题的形态。 当 LLM 从Chatbot演化为Agent,语言的角色正在从沟通媒介变成执行协议。但自然语言不会被淘汰,而是被包裹进更精确、更可组合的结构化符号中——让instruct与action在同一个文本流里无缝衔接。
#LLM
#agent
#自然语言处理
#协议语言
#去模糊化
#决策
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
「Agent, RAG, Reasoning」论文 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning ReSearch,充满了 ReAct 的影子。它教会模型“何时求助于世界”;但局限在于,ReSearch 只能依赖一种工具。 作者提出了一种创新的框架,名为 ReSearch,旨在通过强化学习(RL)训练 LLM 在推理过程中有效地反复利用 search API 完成任务。 从任务形式上,它解决的是增强LLM+ RAG的问题,但并不同于基于 embedding 的单轮相似度检索方法。 它关注的是多次 query、反复调用 search API 来完成信息查询任务。 并不同于基于embedding去单次算相似度的方法,它解决的是多次query,反复调用search API完成外部信息查询的问题。 而反复调用 API,涉及推理能力去决策调用的时机,以及生成调用的参数 —— 这是一个典型的 agent + function calling 场景。 ReSearch目标将这种search的reasoning能力通过RL学到。 具体来说,ReSearch 采用了专门为搜索功能设计的训练模版: <think>...</think>:表示模型的思考过程; <search>...</search>:表示模型发起的搜索查询; <result>...</result>:表示搜索引擎返回的结果; <answer>...</answer>:表示模型给出的最终答案。 特别地,ReSearch 的奖励函数不是仅仅基于答案对错,而是采用 rule-based 的组合机制:基于答案的 F1 相似度 + 输出格式是否符合模板,以此优化 policy,微调语言模型参数。 此时不免再次提及 ReAct:ReSearch 充满了 ReAct 的循环影子——: Reasoning:模型的思考过程; Action:模型发起的调用; Observation:工具返回的反馈。 ReAct 是神作,它以 verbal reasoning (人话)的方式,将原本充满数学公式的 RL 概念转化为语言链式推理,让 LLM 学会如何使用工具,优雅而简洁。 一些思考: ReSearch 以及前几天分享的 ReTool 是非常类似的工作,它们都通过强化学习微调,将使用工具的能力内化于语言模型中,增强工具调用的鲁棒性。 但它们的局限性也非常明显:ReSearch 和 ReTool 都只支持一种工具 —— search API 和 code interpreter。 而 ReAct,通过 Prompt Engineering,就可以灵活调用多个外部工具。 ReSearch 和 ReTool 的 RL 框架是为“单工具、二选一调度”设计的。如果强行扩展为多工具,训练信号将更加稀疏、credit assignment 更加困难,其策略网络、reward assignment、以及 rollout 表达能力都需要重新设计。 我们距离真正原生具备多轮、多工具能力的通用 Agent,还有一段距离。
#agent
#RAG
#reasoning
#Research
#React
#强化学习
#大模型
#Reinforcement Learning
#工具使用
#创新框架
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
「codex, ACI, Agent」论文 SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering 从 Human‑Computer Interaction (HCI) 到 Agent‑Computer Interaction (ACI) —— AI IDE 的基石与框架 今天 OpenAI 开源了 Codex CLI。这正是 NeurIPS 2024 论文 SWE‑agent 中提出的精彩概念 Agent‑Computer Interface(ACI) 的一次产品级实践。 SWE‑agent = ReAct + CLI 原生 = ACI 1. ReAct:Thought → Action → Observation 在运行 Codex CLI 时,你会清晰看到经典的 ReAct 循环: 这一流程与 SWE‑agent 在论文中描述完全一致: “At each step, SWE‑agent generates a thought and a command, then incorporates the feedback from the command’s execution in the environment (ReAct).” 2. CLI 原生:让 Linux CLI 成为Agent的工具 Codex CLI 构建在 Linux shell 之上,必要时会直接调CLI(如 sed, grep, pytest)完成代码检查与测试,对应论文中的另一句: “Built atop the Linux shell, SWE‑agent also allows access to common Linux commands and utilities when needed.” 3. 从思想上,SWE-agent提出了精彩的新概念,ACI。 LLM在编程场景中就像“新型用户”,需要专门为其量身定制的人机交互层——ACI。与HCI的不同之处在于: HCI 面向人类直觉,ACI 面向Agent推理; HCI用GUI追求“让人觉得好用”,ACI追求“让Agent更容易reasoning、有更简洁精确的context, 指令和工具”。 ACI的特点是: 精简指令集合 把嘈杂的Linux CLI抽象成少量高杠杆动作,降低回合数与成本。 反馈充分且简洁 固定格式 + 必要元数据,避免上下文膨胀。 内置护栏 语法 lint、无效编辑回滚,阻断错误连锁。 值得一提的是,codex是纯CLI系统,是ACI的纯粹实践。 其他如cursor,Windsurf或者是devin,是HCI和ACI的结合。 但只从agent的角度来说,理解ACI才能更加当我们vibe coding的时候,到底是怎么回事。
#Codex
#ACI
#agent
#SWE-agent
#Human-Computer Interaction
#Agent-Computer Interaction
#AI IDE
#OpenAI
#开源
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
「LLM, Agent」论文 MOSAIC: Modeling Social AI for Content Dissemination and Regulation in Multi-Agent Simulations 有趣paper,Multi Agent能否模拟“社会实验沙盒”? 这篇论文做了一件有趣的事,用LLM 扮演一群虚拟用户,在模拟社交平台上行为。 具体来说,MOSAIC 构建了一个Multi Agent的社交模拟系统:每个 agent 拥有独立画像,其行为由LLM驱动,不仅能点赞、转发、评论,还会为自己的行为给出解释。 系统整体可用于测试不同的内容治理策略, 例如模拟X的的 Community Notes。 结果显示,Agent 在点赞、评论等行为上与人类高度相似;但 Agent 的行为解释与实际决策存在偏差。 在方法上,这是对social science传统研究方法的大胆创新。然而,许多关键问题,即便在 LLM 自身的研究中未有答案,比如:Agent 是否能真正捕捉人类的情感与心理动机?是否能呈现社会关系中结构性的复杂交互? 用multi agent来模拟大规模社会实验,似乎不可信;但若有一天它真的变得可信... Lost in thought...
#多智能体
#社会实验
#社交平台
#虚拟用户
#行为模拟
#论文研究
#LLM应用
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
「LLM, Reasoning」论文: (How) Do reasoning models reason? “真正的智能,是让模型在生成时就做出正确选择,而不是事后去验证哪个选项是对的。” 作者Subbarao Kambhampati,我不完全同意他,但我很喜欢他。2024年ACL Keynote,他批评当前对 Chain of Thought 的信仰如同宗教。——我们喜欢看到推理的样子,但并未真正验证推理的实质。 这篇论文,简直就是把当前 LLM 推理潮流一锅端,按住OpenAI o1 和 DeepSeek R1 提出了两个灵魂拷问: 1: Large Reasoning Model 是在推理还是在检索? 作者认为,LRM 并非真正“推理”,它们的行为更像经过训练强化的“近似检索”系统。 所谓“推理”,往往只是模型通过被筛选过的训练样本“生成看起来像推理的输出”。 如果模型生成的候选解中压根就没有一个是对的,也就无法进行强化训练。 这意味着 LRM 的“推理”质量依赖于它是否能撞上一个正确答案。 2: Chain of Thought 是否跟“思考相关”? 作者认为,CoT,(如step-by-step 的文字、公式、甚至“wait...”、“aha moment”这类表述)并不能证明模型真的在“思考”,它们很可能只是模仿人类风格的产物——大型模仿模型(Large Mumbling Models, LMMs)。😂 例如,CoT可以胡说八道但仍“撞对”答案, 模型通过 RL 训练输出的CoT只要能让最终答案更准确,哪怕是乱码也无所吊谓。 最后,此片论文同样是对test time scaling的犀利审视,test time scaling本质是把原本在“测试时”才能验证的东西,提前“编译”进了模型的生成过程中。 换句话说,模型不是学会了推理,而是学会了如何在多次尝试中更容易猜对答案。这跟真正的智能背道而驰。 按照作者的思路,当下post training的套路如下: - 测试阶段:拼命尝试多个答案 - 筛选阶段:用外部验证器选出对的那个 - 训练阶段:把这套套路“硬塞回生成器”,形成“像在思考的样子” 所以它不是真的学会了推理,而是学会了:如何让自己看起来像在推理,并增加猜中率。 Intelligence is the ability to shift the test part of generate-and-test into the generate part. inspriing!
#LLM
#reasoning
#智能
#模型
#Subbarao Kambhampati
#ACL
#Chain of Thought
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
「LLM, Reasoning」论文: Rethinking Reflection in Pre-Training 预训练卷土重来,reasoning 时代神奇的 “wait” 再现。 本周我最喜欢的一篇论文来了。 来自 Essential AI,由 Ashish Vaswani 主导,对写过论文的人来说,这个引用太熟悉了 (Vaswani et al., 2017), Transformer 论文第一作者。 论文提出一个非常重要的发现:LLM 在 pretraining 阶段就已经表现出跨任务、跨领域的 general reasoning 能力。更特别的是,一个简单的 token ——“wait”—— 可以作为 reflection trigger,显著提升模型的 reasoning 表现。 相比当前主流的 post-training 方法,不断精细 reward model 的策略,这项工作跳出box,从新的角度审视大模型reasoning的问题。 说实话,RL 的各种 reward 操作看得人有点累觉不爱,而且在提升 general reasoning 上已经逐渐显现出瓶颈 —— 许多方法仍然停留在 task-specific 的 math benchmark 上,并没有真正触及 reasoning 的本质:跨领域、跨任务、可迁移。 相比之下,pretraining 的方法显得更为“neat” —— 不仅更敏捷,也更接近 LLM 的能力本源。 Make pretraining Great Again!
#预训练
#推理
#论文
#Essential AI
#Ashish Vaswani
#transformer
分享
评论 0
0
马东锡 NLP 🇸🇪
3个月前
「Agent, Reasoning」论文: Generative Verifiers: Reward Modeling as Next-Token Prediction 拟人化的 reward model,超越机械的打分,一个非常聪明的方法。 之前的分享中提到过,在 Large Reasoning Model 时代,RL 的方法几乎都是 Reinforcement Learning with Human Feedback 的延展。 只不过,后来的方法在思路上都是把 human feedback 替换成了 reward model。 传统上,reward model 仅仅是一个打分模型,而这篇论文则把 reward model 从简单的打分模型,转变为 next-token 输出, 即超越机械生硬的打分,增添了文字,推理,或者rule。 这大大提升了 reward model 的灵活性,因为可以把所有 prompting engineering 的技巧,比如 CoT、对打分的 reasoning 过程等都结合进来并输出,从来辅助打分。 从思维方式上来看,这篇论文更倾向于将 RM 作为一个“人”来使用,非常聪明。 可见,RM 上的创新将会是Large Reasoning Model重点的方法创新主题,拭目以待。
#Generative Verifiers
#Reward Modeling
#Next-Token Prediction
#Large Reasoning Model
#Reinforcement Learning
分享
评论 0
0
1
2
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞