有了swe-agent的强化学习data scaling law,接下来swe-code-cli更是要突飞猛进了,传统的code,发抖吧: 从强大的思考者LRM到自主的行动者Agent,其演化路径清晰地呈现为一个【四部曲】: 1内在思考: LRM利用思维链等能力,在内部形成解决问题的抽象因果蓝图。 2交互具象化: 通过ACI这座桥梁和ReAct范式,将抽象蓝图转化为与真实世界交互的、具体的{Thought, Action}循环,弥合了知与行的鸿GMO。 3【性能催化: 通过数据缩放和对长上下文、多轮交互的利用,Agent突破了浅层推理的瓶颈,具备了解决复杂问题的基础能力。】 4策略精炼: 借助模仿学习和强化学习的奖惩机制,对Agent的行为策略进行端到端的优化,使其在无数次试错中学会最高效、最安全的行动方式。