#MrlX框架开源

汉松
3周前
我们团队开源了 Multi-Agent 强化学习的框架 MrlX,它能够让你同时训练多个 Agent 模型。 当我们试图让大模型变得更聪明时,大多数人都在做同样的事:训练一个模型,让它自己跟自己对话,希望它能学会反思验证,能学会使用工具。 但如果你仔细想想,这其实很奇怪。 真实世界不是这样运作的。人们是在与其他人的互动中变聪明的。医生通过与病人交谈来提升诊断能力,而病人也在这个过程中学会更好地描述症状。这是一种共同进化。 这就是我们做 MrlX 的原因。 核心想法很简单:让两个 Agent 互相帮助对方成长。一个是“探索者”,负责在真实环境中冒险尝试;另一个是“适应者”,它观察刚刚发生的一切,然后快速调整自己。它们像台阶一样互相垫脚,螺旋式上升。 我们在两个场景中测试了这个想法。 第一个是医生 - 病人对话训练。传统做法是只训练医生 Agent,但我们在思考一个问题:如果病人 Agent 也在进化,会不会让医生 Agent 进化更快?就像真实世界一样:好的病人能帮助医生成为更好的医生,反之亦然。结果证明,联合训练两者比只训练医生要强得多。 第二个场景更复杂:让 Agent 做深度研究。这里的问题是,当你需要频繁使用工具、查询信息时,单个 Agent 的“记忆”会爆炸:它要记住所有工具调用、所有中间结果,很快就撑不住了。解决方案?分工。让不同的 Agent 专注于不同的任务,同时让它们互相训练对方。一个负责主线推理,一个负责处理子任务。它们各自深化自己的专长,同时为对方生成训练样本。 这不是让一个模型假装扮演不同角色。这是真正的多个 Agent,各有专长,共同进化。 两个案例的结果都显示:这种共同进化的方式,在稳定性、收敛速度和最终性能上,都明显超过单 Agent 方法。 最好的创业公司不是一个天才独自工作,而是一群互补的人互相激发。联合创始人之间的张力和协作,往往比任何一个人单独能做到的都要好。MrlX 做的就是这个,只不过是在 AI Agent 之间。 现在这还只是开始。我们只探索了两个场景,都是相对受控的环境。真正有趣的是当你把这个想法推广到更多 Agent、更动态的环境时会发生什么。也许 Agent 可以自己决定要扮演什么角色。也许它们可以形成自组织的生态系统。 欢迎大家使用我们的框架尝试 Multi-Agent 的强化学习,如果觉得有帮助,欢迎转发并给我们的项目一个 star。 最后也欢迎关注我们的 AQ-MedAI 的官方账号,后续我们还有很多新的开源项目在这里发布。