有了swe-agent的强化学习data scaling law，接下来swe-code-cli更是要突飞猛进了，传统的code，发抖吧：从强大的思考者LRM到自主的行动者Agent，其演化路径清晰地呈现为一个【四部曲】： 1内在思考： LRM利用思维链等能力，在内部形成解决问题的抽象因果蓝图。 2交互具象化：通过ACI这座桥梁和ReAct范式，将抽象蓝图转化为与真实世界交互的、具体的{Th

#SWE-agent #强化学习 #数据缩放 #自主行动者Agent #模仿学习

相关新闻

Mr Panda

4天前

很多人私下跟我说自己没有方向，不会知道怎么写，也不知道怎么发，那你就从最笨拙的地方开始，不断的优化自己的行动，做一个人肉的强化学习的人肉智能体。就是要积极的触碰环境，在环境中不断的尝试行动，然后根据反馈的奖励来学习如何做出更好的决策，然后再将决策的方法内化，最后再作用于你的环境，如此循环往复。想不成功都难。先接受自己的笨拙我认为特重要，这世上从来没有缺聪明的人，但

汉松

1周前

DeepResearch Agent 有一个很大的问题就是多次的搜索阅读很容易就把上下文窗口用光了，常规的做法是像 Claude Code 一样，超过阈值就触发记忆压缩。通义的论文《ReSum》提出了一种在 RL 中让模型学会更好地利用压缩内容的方法。这个方法我们之前也考虑过，但这样做在强化学习的时候会有一个问题：一旦触发记忆压缩，整个历史记录都会变成压缩后的内容，此时模型就只能看到压缩后的

henu王凯

2周前

有点意思：刷到了一篇AI炒股的研究论文《Trading- R1: Financial Trading with LLM Reasoning via Reinforcement Learning》，我用NotebookLM过了一遍，问的比较仔细：

Gorden Sun

2周前

LLM强化学习综述论文：

马东锡 NLP

1个月前

大量使用 Claude Code 后，重新读了 SWE-Agent，开始理解使用中的一些问题。 cd/ls/cat/grep/find, Vim-style next/prev 本质上是Human-oriented CLI。所谓 Human-oriented, 意为着这些CLI设计初衷迎合人类的眼球转动速度，使用CLI过程中的short term 记忆。 Human-oriented CL

关联事件

AI编程工具激战：Claude Code、Gemini Cli崛起

902

Claude Code持续快速发展，功能不断增加，竞争日益激烈。开发者社区积极探索其功能、应用并分享经验，第三方工具和应用生态系统不断涌现。Prompt工程的重要性日益凸显，Warp等终端Agent崭露头角。Cursor的Diff AI Edit能力被Cline开源。Claude正添加记忆功能以优化用户体验，与ChatGPT竞争。Gemini发布了类似的AI编程产品Gemini Cli。同时，开发者们也在积极探索如grep/ast-grep等工具在LLM时代Code Agent中的应用，以及如何利用AI优化产品经理的工作流程。此外，市场上还出现了“改版Claude-Code+订阅账户”的方案。