#MrlX框架开源

2个月前

我们团队开源了 Multi-Agent 强化学习的框架 MrlX，它能够让你同时训练多个 Agent 模型。当我们试图让大模型变得更聪明时，大多数人都在做同样的事：训练一个模型，让它自己跟自己对话，希望它能学会反思验证，能学会使用工具。但如果你仔细想想，这其实很奇怪。真实世界不是这样运作的。人们是在与其他人的互动中变聪明的。医生通过与病人交谈来提升诊断能力，而病人也在这个过程中学会更好地描述症状。这是一种共同进化。这就是我们做 MrlX 的原因。核心想法很简单：让两个 Agent 互相帮助对方成长。一个是“探索者”，负责在真实环境中冒险尝试；另一个是“适应者”，它观察刚刚发生的一切，然后快速调整自己。它们像台阶一样互相垫脚，螺旋式上升。我们在两个场景中测试了这个想法。第一个是医生 - 病人对话训练。传统做法是只训练医生 Agent，但我们在思考一个问题：如果病人 Agent 也在进化，会不会让医生 Agent 进化更快？就像真实世界一样：好的病人能帮助医生成为更好的医生，反之亦然。结果证明，联合训练两者比只训练医生要强得多。第二个场景更复杂：让 Agent 做深度研究。这里的问题是，当你需要频繁使用工具、查询信息时,单个 Agent 的“记忆”会爆炸：它要记住所有工具调用、所有中间结果，很快就撑不住了。解决方案？分工。让不同的 Agent 专注于不同的任务，同时让它们互相训练对方。一个负责主线推理，一个负责处理子任务。它们各自深化自己的专长，同时为对方生成训练样本。这不是让一个模型假装扮演不同角色。这是真正的多个 Agent，各有专长，共同进化。两个案例的结果都显示：这种共同进化的方式，在稳定性、收敛速度和最终性能上，都明显超过单 Agent 方法。最好的创业公司不是一个天才独自工作，而是一群互补的人互相激发。联合创始人之间的张力和协作，往往比任何一个人单独能做到的都要好。MrlX 做的就是这个，只不过是在 AI Agent 之间。现在这还只是开始。我们只探索了两个场景，都是相对受控的环境。真正有趣的是当你把这个想法推广到更多 Agent、更动态的环境时会发生什么。也许 Agent 可以自己决定要扮演什么角色。也许它们可以形成自组织的生态系统。欢迎大家使用我们的框架尝试 Multi-Agent 的强化学习，如果觉得有帮助，欢迎转发并给我们的项目一个 star。最后也欢迎关注我们的 AQ-MedAI 的官方账号，后续我们还有很多新的开源项目在这里发布。

#多智能体之争：Anthropic生态VS单智能体· 81 条信息

#Multi-Agent 强化学习 #MrlX框架开源 #Agent共同进化 #医生-病人对话训练 #深度研究Agent分工