汉松

汉松

0 关注者

3周前

我们团队开源了 Multi-Agent 强化学习的框架 MrlX,它能够让你同时训练多个 Agent 模型。 当我们试图让大模型变得更聪明时,大多数人都在做同样的事:训练一个模型,让它自己跟自己对话,希望它能学会反思验证,能学会使用工具。 但如果你仔细想想,这其实很奇怪。 真实世界不是这样运作的。人们是在与其他人的互动中变聪明的。医生通过与病人交谈来提升诊断能力,而病人也在这个过程中学会更好