meng shao
1个月前
WebSailor: 阿里通义实验室发布的开源网络智能体模型,通过创新的数据生成和训练方法,显著提升了开源模型在复杂信息检索任务中的表现,缩小了与专有系统的差距,其核心在于通过模拟高不确定性环境和高效训练,激发模型的超人推理能力。 背景与问题 随着互联网的普及,信息检索变得越来越复杂,人类受限于记忆、注意力和多任务处理能力,无法高效应对高度不确定的信息环境。一些专有系统(如 DeepResearch)在复杂任务(如 BrowseComp 基准测试)中展现了超人表现,但开源模型普遍表现不佳,原因在于它们缺乏处理“高不确定性”任务的复杂推理能力。 论文将信息检索任务分为三类: • Level 1:低不确定性任务,如简单查询或基于模型内部知识的回答 • Level 2:多跳问答(QA),有明确推理路径,尽管初始不确定性较高 • Level 3:复杂任务,信息高度分散且无明确解决方案路径,需要动态探索和综合推理 现有开源模型在 Level 3 任务上几乎无能为力,论文提出 WebSailor 来填补这一差距。 WebSailor 的核心方法 WebSailor 通过创新的训练方法赋予模型处理复杂任务的能力,主要包括以下几个部分: 1. SailorFog-QA 数据生成: • 通过随机游走和子图采样,从维基数据和网络中构建复杂的知识图谱,生成高不确定性的 Level 3 问题 • 使用信息模糊化技术(如将具体日期改为模糊时间段)增加问题难度,逼迫模型进行深入推理而非简单查找 • 这种方法生成的训练数据更贴近现实世界的复杂信息环境,且具有高度可扩展性 2. 推理轨迹重构: • 利用强大的开源大模型(如 QnQ 或 DeepSeek-R1)生成初始的行动-观察轨迹,但直接使用这些轨迹会因冗长或风格问题影响训练效果 • WebSailor 通过提取关键行动序列并重新生成简洁、目标导向的推理过程,解决上下文过载和风格污染问题,确保训练数据高效且通用 3. 两阶段训练: • RFT 冷启动:通过少量高质量数据(约 2000 条)进行拒绝采样微调(RFT),为模型奠定工具使用和推理基础 • DUPO 强化学习:提出了一种高效的强化学习算法(Duplicating Sampling Policy Optimization),通过动态采样和重复利用高方差样本,提升训练效率和模型的复杂推理能力 实验与成果 WebSailor 在多个基准测试中表现出色: • 在 BrowseComp-en/zh 上,WebSailor(3B、7B、32B、72B 参数规模)超越了所有开源模型,甚至与专有模型性能相当,接近顶级系统 DeepResearch • 在 GAIA 和 Xbench-DeepSearch 等测试中,WebSailor 也展现了强大性能,尤其在信息检索任务上。 - 在简单任务(如 SimpleQA)上,WebSailor 同样表现优异,证明其兼容性和泛化能力 关键创新点 • 数据复杂度:SailorFog-QA 数据通过模拟真实网络环境的复杂性和不确定性,显著提升模型处理 Level 3 任务的能力 • 高效训练:DUPO 算法优化了强化学习过程,减少了训练时间,同时避免了奖励操纵问题 • 冷启动策略:通过 RFT 冷启动,模型能够快速掌握复杂推理模式,弥补直接强化学习的不足 局限性与未来方向 • 上下文长度限制:训练数据被限制在 32k 标记以内,可能影响处理更复杂任务的能力 • 训练效率:尽管 DUPO 提高了效率,同步强化学习框架仍需优化,未来可探索异步训练 • 任务范围:WebSailor 专注于信息检索,未来可扩展到更广泛的领域,如数学或多模态任务
meng shao
2个月前
Cursor 1.2 发布:Agent 能智能规划任务、自动解决合并冲突,记忆功能正式上线(质量更高、用户可审批),搜索更精准,Tab 补全速度提升约 100 毫秒,显著优化开发效率和体验 Agent 更聪明,能规划任务 Agent 现在会为复杂任务自动生成结构化的待办清单(To-do List),尤其是那些有依赖关系、需要长期推进的任务。你可以在聊天界面里清楚地看到这些清单,Agent 还会根据任务进展动态更新,保持信息清晰。如果连通了 Slack,这些待办事项还能直接同步到 Slack,方便团队协作。 消息队列,任务管理更灵活 现在你可以给 Agent 排队发指令!当 Agent 在处理当前任务时,你可以继续发送后续任务指令,放入队列。队列里的任务还能自由调整顺序,执行起来更高效,不用干等。 记忆功能正式上线 Memories 功能(记忆生成)现在正式可用!从 1.0 版本以来,团队优化了记忆生成的质量,界面也更友好。为了保护用户信任,新增了后台生成记忆的用户审批机制,确保你对记忆内容有掌控权。 PR 索引和搜索,代码追溯更方便 Cursor 现在能像索引文件一样索引和总结 GitHub 的 Pull Requests。你可以按语义搜索历史 PR,或者直接拉取某个 PR、Issue、Commit 或分支到上下文里。还支持 GitHub 评论、BugBot 审查和 Slack 的 Agent 协作,方便你快速做事故分析或追溯问题。 语义搜索更精准 代码库搜索用上了新的嵌入模型,搜索结果更准确,提示也经过优化,返回的内容更聚焦、更简洁。 Tab 补全速度飞升 Tab 补全速度提升了约 100 毫秒,首 token 生成时间(TTFT)也减少了 30%。背后是通过重构内存管理和优化数据传输实现的,操作起来会感觉更丝滑。 Agent 能帮你解决合并冲突 遇到代码合并冲突?现在可以直接在聊天界面点击“Resolve”,Agent 会自动拉取相关上下文,帮你尝试解决冲突,省时省力。 后台 Agent 更稳定、更贴心 • PR 自动遵循你团队的模板; • Agent 分支的变更会自动拉取; • 像 rebase 这样的冲突会以可操作的后续任务形式提示; • 支持从侧边栏直接提交代码; • Slack 和网页的深层链接能直接打开相关代码库,哪怕你本地没打开它。
meng shao
2个月前
[开源项目] n8n-workflows - 收集超过 2053 个 n8n 工作流,堪称 n8n 自动化爱好者的宝藏仓库。不仅整理了海量的工作流,还通过智能命名、分类和高效的搜索系统,让用户能轻松找到适合自己的自动化方案。 项目概览 · 什么是 n8n? n8n 是一个开源的工作流自动化工具,允许用户通过连接各种服务(比如 Telegram、Google Drive、Slack 等)创建自动化流程 · 项目目标:汇集来自 n8n 官网、社区、博客等来源的 2053 个工作流,涵盖 365 种独特集成,并提供强大的搜索和浏览体验 · 核心优势:相比传统文档系统,这个项目的文档系统性能提升了 100 倍,搜索响应时间低至 100 毫秒,内存占用减少 40 倍,还支持移动端响应式设计 主要功能 1. 高效文档系统: · 使用 SQLite FTS5 技术,实现超快的全文搜索 · 支持按触发类型(如 Webhook、定时触发)、复杂度或服务类别(如 AI、CRM、社交媒体)过滤 · 提供实时统计:总计 29,445 个节点,平均每个工作流 14.3 个节点 · 支持 Mermaid 图表生成,方便直观查看工作流结构 2. 智能命名与分类: · 将复杂文件名(如 `2051_Telegram_Webhook_Automation_Webhook.json`)自动转为易读的标题(如 `Telegram Webhook Automation`) · 通过 `create_categories.py` 脚本,自动识别服务(如 Twilio、Gmail)并归类到 12 个类别(如通信、数据分析、电商等) · 用户可通过下拉菜单按类别筛选工作流,查找更精准 3. 易用性: · 快速启动:克隆仓库,安装 Python 依赖,运行 `python run. py`,即可在 `localhost:8000` 浏览工作流 · 导入 n8n:支持通过 `import_workflows.py` 批量导入,或手动将 JSON 文件导入 n8n · 开发模式:支持自动重载和自定义主机/端口,适合开发者调试 技术亮点 · 现代技术栈:FastAPI 提供 RESTful API,SQLite 数据库支持高效查询,HTML5 前端确保响应式体验 · 性能优化:文件大小从 71MB 缩减到 <100KB,加载时间从 10 秒降到 <1 秒 · 智能分析:通过 MD5 哈希检测文件变化,自动更新数据库;支持后台处理和压缩响应,速度更快 · 移动优化:界面适配手机,支持暗/亮主题,触控友好 使用场景 · 开发者:快速找到并复用现成的自动化工作流,比如连接 Telegram 和 Google Sheets 的自动化 · 业务分析师:探索 CRM、营销或电商相关的工作流,提升业务效率 · 自动化工程师:利用复杂工作流(如多触发器系统)构建企业级解决方案
meng shao
2个月前
从147次 ChatGPT 提示失败到逆转 AI 交互创造 Lyra 提示词优化工具 - Lyra 就像一个“超级翻译”,把你模糊的想法变成 AI 能精准理解的指令,核心在于让 AI 主动问对问题,从而生成更贴合需求的结果 故事背景 来自 Reddit 的一篇帖子,作者因为反复尝试让 ChatGPT 写一封自然的销售邮件未果,崩溃之下灵光一闪:与其费力猜测 AI 需要什么信息,不如让 AI 主动问用户需要什么。于是,他花了72小时开发了 Lyra——一个“反转”交互模式的提示框架,让 AI 先“采访”用户,搞清楚需求后再生成精准输出。 Lyra 的核心逻辑 Lyra 的精髓是**4-D方法论**,通过四个步骤优化用户输入: 1. 分解(Deconstruct):分析用户请求的核心意图、关键信息和缺失部分 2. 诊断(Diagnose):找出请求中的模糊点或不足 3. 开发(Develop):根据任务类型(创意、技术、教育等)选择合适的优化技巧,比如多角度分析、逐步推理等 4. 交付(Deliver):生成清晰、结构化的提示,并附上使用建议 Lyra 的实际效果 · 普通 ChatGPT:输入“写一封销售邮件”,得到千篇一律的模板 · Lyra 优化后:AI 会先问:“你的产品是什么?目标客户是谁?他们的痛点是什么?”然后根据回答生成一封精准、有针对性的邮件 · 另一个例子:用户说“帮我做餐 prep 计划”,普通 ChatGPT 给通用建议,而 Lyra 会问你的厨艺水平、饮食限制、时间安排、口味偏好,最终输出贴合个人需求的计划 Lyra 的提示框架 帖子详细分享了 Lyra 的完整提示(见原文),包括: · 欢迎信息:Lyra 会自我介绍,要求用户说明目标 AI(ChatGPT、Claude 等)和优化模式(DETAIL 深入模式或 BASIC 快速模式) · 两种模式: · DETAIL:通过2-3个针对性问题收集更多背景信息,适合复杂任务 · BASIC:快速优化,适合简单请求 · 输出格式:优化后的提示、改进说明、应用技巧和使用建议 · 适用平台:ChatGPT、Claude、Gemini、Grok 等,针对不同 AI 的特点调整优化策略 为什么特别? · 用户友好:Lyra 让 AI 主动补全缺失信息,降低用户编写完美提示的难度 · 广泛适用:从写邮件、做计划到婚礼筹备、代码调试,Lyra 都能大幅提升 AI 输出质量 · 社区反响:帖子爆火,获600万浏览和6万分享,用户反馈 Lyra 帮助解决了各种实际问题
meng shao
2个月前
HuggingFace 模型下载量总榜榜首是这个用来检测 NSFW 的模型 - nsfw_image_detection,下载量达到 1.67 亿,来自 Falcons AI 核心功能 模型使用 Vision Transformer (ViT) 技术,基于谷歌的`vit-base-patch16-224-in21k`,在 ImageNet-21k 数据集上预训练,之后用80,000张包含“正常”和“NSFW”两类的专有数据集进行微调,主要用途是识别和过滤不雅或敏感图片,适用于内容审核和安全过滤场景。 技术亮点 · 模型架构:采用 ViT,类似 BERT 的图像处理版本,擅长捕捉图像中的细微模式 · 训练细节:使用16的批次大小和5e-5的学习率,确保模型在快速学习和稳定优化间平衡。训练数据集多样,包含80,000张图片 · 性能表现:模型评估显示高准确率(98.04%),运行效率也不错(每秒处理52.46个样本) 使用方法 1. 高层次 API:通过 Hugging Face 的 `pipeline` 接口,加载模型后直接对图片进行分类,判断是“正常”还是 “NSFW” 2. YOLOv9 版本:使用 ONNX 格式的 YOLOv9 模型进行推理,需要指定图片路径、模型文件和标签文件,适合更定制化的需求 局限性 · 模型专为 NSFW 分类优化,应用到其他任务可能需要额外微调 · 性能受训练数据质量影响,用户需根据具体场景验证模型效果 实际应用 这个模型适合需要内容过滤的平台,如社交媒体、论坛或内容分享应用。用户需注意负责任使用,遵守相关内容法规。
meng shao
3个月前
meng shao
8个月前
看完吴恩达老师新年展望里,对大型系统中 AI 辅助开发遇到的挑战的陈述,恰好今天在公司领了个活儿,就是这个方向。 公司想把团队做了几年的软件重做一遍,时间只给了两个月,从方案设计到产品开发,因为涉及到软硬件结合和复杂的功能实现,挑战不小。 我也在思考,如果想实现这样的“挑战”,我们要怎么做,首先是常规手段: - 挑选开发和架构能力、配合推动能力强的成员组成精简的特殊产品开发测试小组 - 采用敏捷的开发模式,各个方向的开发紧密合作,降低沟通成本 - 所有流程规则从简,减少干扰打断,提升连续开发效率 - 提高自动化和工具化,测试提前介入单元和自动化测试 - 更清晰明确的架构,架构设计时更多架构伙伴充分论证,高内聚低耦合 除此之外呢,就现有团队能力,想有更大幅度的提升,当然还有一个非常重要的外援 - AI ❗️ 过去团队 AI 主要用在编程环节,这次我想做一个复杂大型工程的 AI 实践,从开发方案、架构设计、新技术理解、产品方案评估、体验设计规范、辅助编程(介入到复杂业务逻辑和设计规范程度)、辅助测试用例编写和自动化测试、服务环境设计和部署等工程的全流程各个环节,都用不同的 AI 工具辅助。 下周一敲定团队成员后正式开动,我打算把这个过程记录沉淀下来,分享到系列文章中,感兴趣的朋友可以先关注下图中的公众号 👇
误入软件开发十五年 卷完周报看了一眼日历:7 月 1 号,猛然想到今天就正式工作满十五年了,以后就可以说自己说软件开发从业经验超过15年了。回头想想也是挺折腾挺曲折的十五年,以前零散在朋友们的推文下评论过一些,今天也想努力回想整理一下,以后真的忘了,还能找到这里的回忆。 从大学开始到现在,一共经历了四个城市,展开说说 👇 -- 重庆(05-09)-- 05 年 10 月从河北的农村老家来到重庆大学,那也是第一次出远门、第一次坐火车,到了大学一切都是陌生的,因为截止日期晚上才报道,火车站接站和学校接待都撤了,好容易到了学校一路问到寝室,匆匆忙忙的开始了军训, 10 月份的重庆相比河北还是非常热,就这么又热又水土不服的开始了大学生活。 因为高中时对数学和物理很感兴趣(主要也是报考时真看不懂其他专业是啥),本科专业选择的是应用物理,进入学校从老师、辅导员和学长那了解到物理学是一个长线专业,本科就业比较难,需要读研读博才有更好的科研方向选择,但家庭条件不太好,弟弟在学美术,我还是想毕业后尽快工作有收入来支撑生活。 所以在大二开始就在尝试不同的兼职方式:家教、促销导购、商铺租赁、会议策划、外卖(那时还没有美团,联系几个味道做的不错的快餐店,往办公楼集中的地方推订餐),也想看看自己到底能做什么、喜欢做什么,一路做下来,其实还是对家教更感兴趣,不过这很难成为工作方向。 到了大四上开始校招,尽量多去参加校招宣讲,记得美的、华为、中广核、碧桂园等等只要不限制专业的都去参加了,也拿到了碧桂园销售方向的三方协议。后来机缘巧合配同学去参加一个叫做 “INTASECT” 的对日外包软件公司的宣讲,真的只是想去听听,顺便蹭个饭。现场招聘人员给每个人发了一套题(数字和图形逻辑类),我也做了,当天收到面试电话。心里觉得很纳闷,当时对计算机是真的一窍不通,识别只会开机打字、玩红警的状态,什么计算机一级二级完全不了解。看看也不是坏事,也就去了,面试我的是这个公司的合伙人,他当时问了我一个问题,后来才知道那是冒泡排序,又问了一个路径规划问题。因为对计算机真的不懂,完全是往数学解题的方向在扯,当时他就说:同学你的数学应该不错,从你前面笔试题也能看出来,不过计算机你没学过,你愿意学吗?我们可以提供免费日语和计算机培训。那我当然愿意了,当场表态后直接签了三方协议。 后来毕业前到公司集中培训学习,论文和毕业仪式也伴随着培训过程急匆匆的结束,正式进入“职场”。 -- 成都(09-12)-- 在成都开始了工作,职场也比我想象的要友好,因为很多同届的应届伙伴,大家一起学习和工作,还是很有趣。对日外包的工作本身难度不高,只是对日语和严谨度要求比较高,几个月过后也就适应了,当时记得用的语言是 Cobol 和 C。后来又见到面试我的领导,也跟他谈起,为什么当时对一个完全不懂计算机编程的学生会通过面试呢?他表示自己也是做技术的,了解编程是可以快速入门上手的,但是做到深处,数学和逻辑能力就更关键了,他也看好我这个方面的表现。 后来因为这家公司日本业务合作的问题,我们很多应届生在一年后离开,但到现在都还是很感谢这位领导,他后来定居日本也没了联系,很感激他把我带到这个“陌生”但又陪伴我十几年的行业。 离开后去了一家四川电信的合作公司,做基站巡检类产品服务的公司,公司很小只有 20 来人。和严谨的日企完全不同的做事方式,需要直接对接电信客户、理解需求、开发测试交付、现场运维等等,工作倒也不难,因为人少所以也能接触到更多开发之外的事情,还能根据不同的需求选择不同的产品形态(WPF、Silverlight、Android 等),也是这时开始接触到有界面的语言,当时真的好喜欢 Silverlight 的显示效果。 在成都三年后,当时国内的 Windows Phone 7 开始慢慢流行起来,自己因为做过 WPF、Silverlight,所以对 WP 编程不陌生,加上当时 Android 和 WP 系统效果的对比,WP 简直是碾压,所以就想找一个公司全职做 WP 开发。成都这样的机会比较少,就想到了去北京,一方面离家近,一方面机会选择多一些。 有了这个方向后,也比较顺利的找到了北京的 WP 工作,回到了北京。 -- 北京(12-17)-- 到了北京开始做 WP 开发工作,后来是 Windows 8\10 开发,12-14 年也是对我影响和改变最大的几年,开始接触全新的 WP 系统,同时接触到很多同路的朋友,虽然现在大家都已经转去做其他方向了。也是从 14 年开始,因为做过一些 WP App,也写过一些博客、MSDN 问答等,成为了微软 MVP,现在还是很怀念那时的微软 MVP,大家都很有激情的分享技术和产品,参加线下 Tech Summit,每年还会组织很多次 MVP 聚会和一年一度的美国总部 MVP 峰会。真的是非常开心的做技术开发交流的几年。 到了 14 年当时微软对 WP 系统做了升级,直观感受上重视程度明显降低了,我的工作也受到了影响,不得不去了一家法国公司,做供应链决策分析系统的后台开发。说来惭愧,当时对这个行业和系统也是一无所知,但是公司总经理也是觉得我数学、逻辑和表达能力不错,作为中方开发和法国总部配合会比较顺利。进来后对业务理解也比较快,工作也算顺利,不过法国公司的节奏对当时我的年龄来说,实在太慢了,经常一周的工作可能前两天就做完了,后面三天零散的和法国同时有一些邮件沟通。过了不到一年,我就觉得这样下去好慌,不行,要换个发展更好、节奏更快的行业,于是就很快离开,加入了旷视科技。 其实当时对旷视科技做的人脸检测的行业也没什么概念,当时国内人脸检测技术也还没推广开,只是觉得这个方向很酷,面试中得到公司的清华学生比例非常高,公司环境也不错,面试同事也都很不错,就加入了。加入后也确实如所想,节奏很快、做的事情和之前很不一样、大家都很聪明,经常让你感觉到智商的碾压,在这里做事很有趣很开心,就这么过了接近两年。 因为那几年的北京雾霾还比较严重,我老婆到冬天呼吸道就经常不舒服,当时就想着换个南方的城市。联系了苏州微软的朋友,也基本通过了面试,想着去上海苏州一带实际感受一下,再谈 Offer。去的时候是冬天,长江流域的阴冷让我和老婆都不太适应,回来后就果断放弃了这个机会。 转而一个在深圳的微软的架构师朋友,因为在 MVP 活动认识,他也是当时微软 Startup 项目和初创公司沟通很多的角色。给我介绍了一个初创团队,做动画视频和在线设计工具,他们在招一个技术总监。到更理想环境的城市、做技术总监也可以学习到更多开发之外的东西,这两个点让我们决定搬到深圳,也就开始了后面 7 年深圳的生活。 -- 深圳(17-24)-- 到深圳这家初创公司,一下就工作了 6 年,也经历了这个公司从 A 轮到 C+ 的过程,同时也经历了😷的三年和国内资本的起起伏伏,当然主要还是公司自己的发展没想好,到时太依赖资本和太面向资本发展了。 就我的职位来说,从最初产品开发团队只有 7-8 个人,发展到后面最多时三个城市共 150 左右的团队,自己也学习了很多不同阶段不同规模团队的带领方式,也在不断接触资本的过程中学习到很多路演和演说技巧,也做产品运营有了一些认识。 在第 5 年开始,因为经营问题,公司开始了各种裁员和福利薪资的缩减,以及一些上不得台面的恶心人的手段,当时就觉得在这个公司的路应该是到头了。 因为有股权和股东身份等问题,加上当时老板的核心管理团队都不太职业,离职折腾了挺长时间,anyway 算是顺利离职了。 很感谢微软的朋友把我带到深圳,也很感谢前公司的 CEO,能让我担任这个技术负责人角色,学习到很多,也了解了很多开发之外的事情,都是自己的收获。 在 SD 和 GPT-3.5 发布后,也开始关注生成式 AI 的方向,当时还信心满满的觉得可以几个人合作做一个小而美的 AI 公司,拿融资迅速启动迅速做大(现在想想这种NAIVE的想法脑子就是被门挤了),不过很现实的情况确实是完全拿不到融资,甚至没有能接近融资的机会。边学边做了几个月的 RAG 场景应用后,家庭还是出现一些负面的声音,因为没有收入,家人和我都开始焦虑,这样下去也确实看不到什么希望,就开始回到职场,接了当时离职前接触的 Offer,来到了现在的公司。 现在公司是做桌面激光硬件的,搭配硬件有设计和加工的工具、社区和商城。又是一个完全陌生的领域,对硬件开发一窍不通的我又是一次全新的学习过程,不过好在它们的设计工具我比较熟,社区和商城也都接触过,最核心的任务就是能够把软件研发和硬件研发的节奏拉通,保证交付后能够不断发挥软件的价值。 工作之余,还是会非常关注生成式 AI 的发展和落地,有时间就去看看新的论文、开源项目和产品,也把自己觉得不错的内容分享出来,希望能对大家有所启发,也让大家在忙碌中能快速发现自己喜欢的内容,再去看原文,起到一个抛砖引玉的作用。也是真的很怀念十年前开始做微软 MVP 时分享的快乐。 -- 写在后面 -- 写完这几段再回头想,这十几年好像每进入一个行业,都是很陌生的,都是边学边做的,好像也没遇到真的不能解决的问题,也确实,咱也不是造火箭的。 说了这么多,自己的感受就是:拥抱变化、敬畏但不畏惧新事物、保持心态开放、保持学习习惯就好。 之前零散给朋友们评论,也说要完整回忆分享一次,就写在上面吧,也可以当作是一次更完整的自我介绍。