WebSailor: 阿里通义实验室发布的开源网络智能体模型,通过创新的数据生成和训练方法,显著提升了开源模型在复杂信息检索任务中的表现,缩小了与专有系统的差距,其核心在于通过模拟高不确定性环境和高效训练,激发模型的超人推理能力。 背景与问题 随着互联网的普及,信息检索变得越来越复杂,人类受限于记忆、注意力和多任务处理能力,无法高效应对高度不确定的信息环境。一些专有系统(如 DeepResearch)在复杂任务(如 BrowseComp 基准测试)中展现了超人表现,但开源模型普遍表现不佳,原因在于它们缺乏处理“高不确定性”任务的复杂推理能力。 论文将信息检索任务分为三类: • Level 1:低不确定性任务,如简单查询或基于模型内部知识的回答 • Level 2:多跳问答(QA),有明确推理路径,尽管初始不确定性较高 • Level 3:复杂任务,信息高度分散且无明确解决方案路径,需要动态探索和综合推理 现有开源模型在 Level 3 任务上几乎无能为力,论文提出 WebSailor 来填补这一差距。 WebSailor 的核心方法 WebSailor 通过创新的训练方法赋予模型处理复杂任务的能力,主要包括以下几个部分: 1. SailorFog-QA 数据生成: • 通过随机游走和子图采样,从维基数据和网络中构建复杂的知识图谱,生成高不确定性的 Level 3 问题 • 使用信息模糊化技术(如将具体日期改为模糊时间段)增加问题难度,逼迫模型进行深入推理而非简单查找 • 这种方法生成的训练数据更贴近现实世界的复杂信息环境,且具有高度可扩展性 2. 推理轨迹重构: • 利用强大的开源大模型(如 QnQ 或 DeepSeek-R1)生成初始的行动-观察轨迹,但直接使用这些轨迹会因冗长或风格问题影响训练效果 • WebSailor 通过提取关键行动序列并重新生成简洁、目标导向的推理过程,解决上下文过载和风格污染问题,确保训练数据高效且通用 3. 两阶段训练: • RFT 冷启动:通过少量高质量数据(约 2000 条)进行拒绝采样微调(RFT),为模型奠定工具使用和推理基础 • DUPO 强化学习:提出了一种高效的强化学习算法(Duplicating Sampling Policy Optimization),通过动态采样和重复利用高方差样本,提升训练效率和模型的复杂推理能力 实验与成果 WebSailor 在多个基准测试中表现出色: • 在 BrowseComp-en/zh 上,WebSailor(3B、7B、32B、72B 参数规模)超越了所有开源模型,甚至与专有模型性能相当,接近顶级系统 DeepResearch • 在 GAIA 和 Xbench-DeepSearch 等测试中,WebSailor 也展现了强大性能,尤其在信息检索任务上。 - 在简单任务(如 SimpleQA)上,WebSailor 同样表现优异,证明其兼容性和泛化能力 关键创新点 • 数据复杂度:SailorFog-QA 数据通过模拟真实网络环境的复杂性和不确定性,显著提升模型处理 Level 3 任务的能力 • 高效训练:DUPO 算法优化了强化学习过程,减少了训练时间,同时避免了奖励操纵问题 • 冷启动策略:通过 RFT 冷启动,模型能够快速掌握复杂推理模式,弥补直接强化学习的不足 局限性与未来方向 • 上下文长度限制:训练数据被限制在 32k 标记以内,可能影响处理更复杂任务的能力 • 训练效率:尽管 DUPO 提高了效率,同步强化学习框架仍需优化,未来可探索异步训练 • 任务范围:WebSailor 专注于信息检索,未来可扩展到更广泛的领域,如数学或多模态任务