meng shao
3天前
Andrej Karpathy 最新观点:强化学习很强,但不是终极答案 Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。 但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案: 1. 长任务的局限性(渐进问题): 当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任务,最后只得到一个单一的“得分”(scalar reward),然后用这个得分去调整整个过程中的行为权重。这就像跑了一场马拉松,最后只告诉你“跑得不错”或“跑得不好”,但没有具体告诉你哪里可以改进。这种方式在超长任务上显得粗糙,效率不高。 2. 人类学习的差异(机制问题): 人类在学习时并不完全依赖“结果好坏”这种单一信号。我们会通过反思来提取更多信息,比如“这次哪里做得好?哪里出了问题?下次该怎么改进?”这种反思过程会生成明确的经验教训(lessons),就像一条条指导原则,帮我们在未来做得更好。Karpathy 觉得,RL 缺少这种类似人类反思的机制,而这可能是 LLMs 未来进化的关键。 人类学习的启发:反思与“经验教训” Karpathy 用“second nature”(第二本能)来形容人类通过反思逐渐掌握技能的过程。比如,你学骑自行车时,摔了几次后会总结:“我得保持平衡,眼睛看前方。”这种总结就像一条“经验教训”,直接指导你下次的行为。Karpathy 认为,AI 应该也有类似机制,尤其是像 LLMs 这样有强大语言能力和上下文学习能力的模型。 他举了个例子:LLMs 在处理某些任务(比如数单词“strawberry”里的“r”)时,因为分词和内部计算的限制,表现得很吃力。Anthropic 给 Claude 加了一条“补丁”提示,大意是:“如果要数字母,先把单词拆成单个字母,用逗号隔开,然后一个一个数。”这条提示就像人类总结的“经验教训”,直接告诉模型怎么做更有效。 问题在于:这条“补丁”是工程师手动加的。Karpathy 想知道,能不能让模型自己通过实践和反思,自动生成这样的“经验教训”,而不是靠人类硬编码?更进一步,这些教训能不能被“蒸馏”成模型的直觉(类似人类睡觉时巩固记忆),避免上下文窗口无限膨胀? 提出的一种新算法思路 Karpathy 设想了一种可能的算法,灵感来自人类反思的机制,专门为 LLMs 设计: 1. 多次尝试(Rollouts):让模型针对一个任务做几次尝试,每次记录行为和结果(奖励高低)。 2. 反思阶段:把这些尝试的结果塞进上下文窗口,用一个“元提示”(meta-prompt)引导模型分析:“这次哪里做得好?哪里不好?下次该怎么改进?”生成一条明确的“经验教训”(lesson),以字符串形式记录。 3. 更新系统提示:把新生成的“教训”加到系统提示中,或者存到一个“教训数据库”里,供未来使用。 4. 长期优化:为了避免上下文窗口塞满这些教训,可以通过某种方式(类似“睡眠”)把它们蒸馏到模型权重中,形成更高效的直觉。 这种方法利用了 LLMs 的独特优势——它们能理解和生成语言,能在上下文里学习新策略。而传统的 RL(比如在 Atari 游戏或机器人控制中)没有这种语言能力,所以无法直接套用这个思路。 为什么这很重要?未来的 S 曲线 Karpathy 认为,RL 确实比监督微调更“苦涩”,而且还会带来更多性能提升。但他也相信,RL 只是当前的一条 S 曲线(技术进步的阶段性曲线),未来还有更多曲线等待发现。特别是对于 LLMs 这样有语言能力的模型,可能会有全新的学习范式,超越传统 RL 的局限。这些范式可能跟人类反思、总结、归纳的方式更接近,而且在长任务和复杂问题上更高效。 他提到的 ChatGPT 新增的“Memory”功能,可能是一个雏形,但目前只用于个性化定制(比如记住用户偏好),还没用于解决复杂问题。Karpathy 的设想是:如果能让模型自己总结经验教训,并在实践中不断优化,可能会开启 AI 智能的新篇章。
meng shao
5天前
Vibe Kanban: 专门 AI 程序员的看板,把 Claude Code、Gemini CLI、Codex 等各种 AI 编码助手当成“员工”,像管理任务卡片一样,给它们派活、盯进度、收结果,把人类工程师从“写代码”升级为“指挥 AI 写代码” 😂 为什么重要 1. 角色转变:AI 现在能写 70-80% 的代码,人更多时间花在“想做什么、怎么拆任务、检查成果”。Vibe Kanban 把这部分工作可视化、可编排,正好卡在“人-AI 协作”的痛点上 2. 多智能体协同:以前只能一次跟一个 AI 聊天,现在可以并行跑好几个,甚至串成流水线(A 生成代码 → B 写单测 → C 起 dev server) 3. 零门槛:用看板界面就能完成“切智能体、发指令、收结果”,不用记各家 CLI 的怪参数 核心能力 · 任务看板:每个卡片就是一次 AI 任务,实时显示状态(排队/运行/成功/失败) · 智能体切换:下拉菜单选“用 Claude 重构”还是“让 Gemini 补注释” · 一键预览:卡片里直接起 dev server、跑单测、看 diff,省得来回切终端 · 配置中心:所有智能体的 API Key、模型参数集中管理,一键下发 · 本地优先:Rust + Node 写的桌面/命令行混合应用,代码和数据都在本地,不担心泄露源码 上手三步 1. 装好 Rust、Node 18+、pnpm 2. 克隆仓库,`pnpm dev` 一键启动 3. 在看板里新建卡片,选 AI 智能体、写提示词,回车——等收结果即可
meng shao
1周前
Anthropic Academy 推出了一系列官方免费培训课程,包括 Claude 多渠道 API、MCP 入门、MCP 进阶、Claude Code 实战等,优质、官方、免费,学起来! 已发布的课程有: · Claude 与 Anthropic API · Claude 与 Amazon Bedrock · Claude 与 Google Cloud Vertex AI · MCP 简介 · MCP 高级主题 · Claude Code 实战 以「Claude Code 实战」为例,课程内容设计: · 了解 AI 编码助手的架构:你会搞清楚 Claude Code 是如何“读懂”代码库的,比如它怎么通过工具集成来分析和修改代码,背后的技术逻辑是什么 · 玩转工具组合:学会用 Claude Code 的工具系统处理复杂的编程任务,比如多步骤的开发场景,灵活应对各种开发需求 · 掌握上下文管理:在与 AI 的对话中,如何保持上下文的连贯性?课程会教你管理项目资源,确保 AI 提供精准的帮助 · 视觉化沟通:想通过图片或界面截图告诉 AI 你想要的界面改动?课程会教你如何用视觉输入与 Claude Code 协作,还会介绍高级规划功能,帮你应对复杂的代码库调整 · 创建自动化命令:学会设计可重复使用的自定义命令,简化那些繁琐的开发任务,让效率翻倍 · 通过 MCP 服务器扩展功能:想让 Claude Code 连上外部工具,比如浏览器自动化或其他开发流程?课程会教你用 MCP 实现这些高级集成 · 与 GitHub 无缝协作:学习如何将 Claude Code 嵌入 GitHub 工作流,比如自动代码审查,优化版本控制过程 · 灵活运用思考和规划模式:根据任务的复杂程度,学会选择适合的 AI 推理方式,解决从简单到高难度的编程挑战
meng shao
1周前
WebSailor: 阿里通义实验室发布的开源网络智能体模型,通过创新的数据生成和训练方法,显著提升了开源模型在复杂信息检索任务中的表现,缩小了与专有系统的差距,其核心在于通过模拟高不确定性环境和高效训练,激发模型的超人推理能力。 背景与问题 随着互联网的普及,信息检索变得越来越复杂,人类受限于记忆、注意力和多任务处理能力,无法高效应对高度不确定的信息环境。一些专有系统(如 DeepResearch)在复杂任务(如 BrowseComp 基准测试)中展现了超人表现,但开源模型普遍表现不佳,原因在于它们缺乏处理“高不确定性”任务的复杂推理能力。 论文将信息检索任务分为三类: • Level 1:低不确定性任务,如简单查询或基于模型内部知识的回答 • Level 2:多跳问答(QA),有明确推理路径,尽管初始不确定性较高 • Level 3:复杂任务,信息高度分散且无明确解决方案路径,需要动态探索和综合推理 现有开源模型在 Level 3 任务上几乎无能为力,论文提出 WebSailor 来填补这一差距。 WebSailor 的核心方法 WebSailor 通过创新的训练方法赋予模型处理复杂任务的能力,主要包括以下几个部分: 1. SailorFog-QA 数据生成: • 通过随机游走和子图采样,从维基数据和网络中构建复杂的知识图谱,生成高不确定性的 Level 3 问题 • 使用信息模糊化技术(如将具体日期改为模糊时间段)增加问题难度,逼迫模型进行深入推理而非简单查找 • 这种方法生成的训练数据更贴近现实世界的复杂信息环境,且具有高度可扩展性 2. 推理轨迹重构: • 利用强大的开源大模型(如 QnQ 或 DeepSeek-R1)生成初始的行动-观察轨迹,但直接使用这些轨迹会因冗长或风格问题影响训练效果 • WebSailor 通过提取关键行动序列并重新生成简洁、目标导向的推理过程,解决上下文过载和风格污染问题,确保训练数据高效且通用 3. 两阶段训练: • RFT 冷启动:通过少量高质量数据(约 2000 条)进行拒绝采样微调(RFT),为模型奠定工具使用和推理基础 • DUPO 强化学习:提出了一种高效的强化学习算法(Duplicating Sampling Policy Optimization),通过动态采样和重复利用高方差样本,提升训练效率和模型的复杂推理能力 实验与成果 WebSailor 在多个基准测试中表现出色: • 在 BrowseComp-en/zh 上,WebSailor(3B、7B、32B、72B 参数规模)超越了所有开源模型,甚至与专有模型性能相当,接近顶级系统 DeepResearch • 在 GAIA 和 Xbench-DeepSearch 等测试中,WebSailor 也展现了强大性能,尤其在信息检索任务上。 - 在简单任务(如 SimpleQA)上,WebSailor 同样表现优异,证明其兼容性和泛化能力 关键创新点 • 数据复杂度:SailorFog-QA 数据通过模拟真实网络环境的复杂性和不确定性,显著提升模型处理 Level 3 任务的能力 • 高效训练:DUPO 算法优化了强化学习过程,减少了训练时间,同时避免了奖励操纵问题 • 冷启动策略:通过 RFT 冷启动,模型能够快速掌握复杂推理模式,弥补直接强化学习的不足 局限性与未来方向 • 上下文长度限制:训练数据被限制在 32k 标记以内,可能影响处理更复杂任务的能力 • 训练效率:尽管 DUPO 提高了效率,同步强化学习框架仍需优化,未来可探索异步训练 • 任务范围:WebSailor 专注于信息检索,未来可扩展到更广泛的领域,如数学或多模态任务
meng shao
1周前
Cursor 1.2 发布:Agent 能智能规划任务、自动解决合并冲突,记忆功能正式上线(质量更高、用户可审批),搜索更精准,Tab 补全速度提升约 100 毫秒,显著优化开发效率和体验 Agent 更聪明,能规划任务 Agent 现在会为复杂任务自动生成结构化的待办清单(To-do List),尤其是那些有依赖关系、需要长期推进的任务。你可以在聊天界面里清楚地看到这些清单,Agent 还会根据任务进展动态更新,保持信息清晰。如果连通了 Slack,这些待办事项还能直接同步到 Slack,方便团队协作。 消息队列,任务管理更灵活 现在你可以给 Agent 排队发指令!当 Agent 在处理当前任务时,你可以继续发送后续任务指令,放入队列。队列里的任务还能自由调整顺序,执行起来更高效,不用干等。 记忆功能正式上线 Memories 功能(记忆生成)现在正式可用!从 1.0 版本以来,团队优化了记忆生成的质量,界面也更友好。为了保护用户信任,新增了后台生成记忆的用户审批机制,确保你对记忆内容有掌控权。 PR 索引和搜索,代码追溯更方便 Cursor 现在能像索引文件一样索引和总结 GitHub 的 Pull Requests。你可以按语义搜索历史 PR,或者直接拉取某个 PR、Issue、Commit 或分支到上下文里。还支持 GitHub 评论、BugBot 审查和 Slack 的 Agent 协作,方便你快速做事故分析或追溯问题。 语义搜索更精准 代码库搜索用上了新的嵌入模型,搜索结果更准确,提示也经过优化,返回的内容更聚焦、更简洁。 Tab 补全速度飞升 Tab 补全速度提升了约 100 毫秒,首 token 生成时间(TTFT)也减少了 30%。背后是通过重构内存管理和优化数据传输实现的,操作起来会感觉更丝滑。 Agent 能帮你解决合并冲突 遇到代码合并冲突?现在可以直接在聊天界面点击“Resolve”,Agent 会自动拉取相关上下文,帮你尝试解决冲突,省时省力。 后台 Agent 更稳定、更贴心 • PR 自动遵循你团队的模板; • Agent 分支的变更会自动拉取; • 像 rebase 这样的冲突会以可操作的后续任务形式提示; • 支持从侧边栏直接提交代码; • Slack 和网页的深层链接能直接打开相关代码库,哪怕你本地没打开它。
meng shao
2周前
[开源项目] n8n-workflows - 收集超过 2053 个 n8n 工作流,堪称 n8n 自动化爱好者的宝藏仓库。不仅整理了海量的工作流,还通过智能命名、分类和高效的搜索系统,让用户能轻松找到适合自己的自动化方案。 项目概览 · 什么是 n8n? n8n 是一个开源的工作流自动化工具,允许用户通过连接各种服务(比如 Telegram、Google Drive、Slack 等)创建自动化流程 · 项目目标:汇集来自 n8n 官网、社区、博客等来源的 2053 个工作流,涵盖 365 种独特集成,并提供强大的搜索和浏览体验 · 核心优势:相比传统文档系统,这个项目的文档系统性能提升了 100 倍,搜索响应时间低至 100 毫秒,内存占用减少 40 倍,还支持移动端响应式设计 主要功能 1. 高效文档系统: · 使用 SQLite FTS5 技术,实现超快的全文搜索 · 支持按触发类型(如 Webhook、定时触发)、复杂度或服务类别(如 AI、CRM、社交媒体)过滤 · 提供实时统计:总计 29,445 个节点,平均每个工作流 14.3 个节点 · 支持 Mermaid 图表生成,方便直观查看工作流结构 2. 智能命名与分类: · 将复杂文件名(如 `2051_Telegram_Webhook_Automation_Webhook.json`)自动转为易读的标题(如 `Telegram Webhook Automation`) · 通过 `create_categories.py` 脚本,自动识别服务(如 Twilio、Gmail)并归类到 12 个类别(如通信、数据分析、电商等) · 用户可通过下拉菜单按类别筛选工作流,查找更精准 3. 易用性: · 快速启动:克隆仓库,安装 Python 依赖,运行 `python run. py`,即可在 `localhost:8000` 浏览工作流 · 导入 n8n:支持通过 `import_workflows.py` 批量导入,或手动将 JSON 文件导入 n8n · 开发模式:支持自动重载和自定义主机/端口,适合开发者调试 技术亮点 · 现代技术栈:FastAPI 提供 RESTful API,SQLite 数据库支持高效查询,HTML5 前端确保响应式体验 · 性能优化:文件大小从 71MB 缩减到 <100KB,加载时间从 10 秒降到 <1 秒 · 智能分析:通过 MD5 哈希检测文件变化,自动更新数据库;支持后台处理和压缩响应,速度更快 · 移动优化:界面适配手机,支持暗/亮主题,触控友好 使用场景 · 开发者:快速找到并复用现成的自动化工作流,比如连接 Telegram 和 Google Sheets 的自动化 · 业务分析师:探索 CRM、营销或电商相关的工作流,提升业务效率 · 自动化工程师:利用复杂工作流(如多触发器系统)构建企业级解决方案
meng shao
2周前
从147次 ChatGPT 提示失败到逆转 AI 交互创造 Lyra 提示词优化工具 - Lyra 就像一个“超级翻译”,把你模糊的想法变成 AI 能精准理解的指令,核心在于让 AI 主动问对问题,从而生成更贴合需求的结果 故事背景 来自 Reddit 的一篇帖子,作者因为反复尝试让 ChatGPT 写一封自然的销售邮件未果,崩溃之下灵光一闪:与其费力猜测 AI 需要什么信息,不如让 AI 主动问用户需要什么。于是,他花了72小时开发了 Lyra——一个“反转”交互模式的提示框架,让 AI 先“采访”用户,搞清楚需求后再生成精准输出。 Lyra 的核心逻辑 Lyra 的精髓是**4-D方法论**,通过四个步骤优化用户输入: 1. 分解(Deconstruct):分析用户请求的核心意图、关键信息和缺失部分 2. 诊断(Diagnose):找出请求中的模糊点或不足 3. 开发(Develop):根据任务类型(创意、技术、教育等)选择合适的优化技巧,比如多角度分析、逐步推理等 4. 交付(Deliver):生成清晰、结构化的提示,并附上使用建议 Lyra 的实际效果 · 普通 ChatGPT:输入“写一封销售邮件”,得到千篇一律的模板 · Lyra 优化后:AI 会先问:“你的产品是什么?目标客户是谁?他们的痛点是什么?”然后根据回答生成一封精准、有针对性的邮件 · 另一个例子:用户说“帮我做餐 prep 计划”,普通 ChatGPT 给通用建议,而 Lyra 会问你的厨艺水平、饮食限制、时间安排、口味偏好,最终输出贴合个人需求的计划 Lyra 的提示框架 帖子详细分享了 Lyra 的完整提示(见原文),包括: · 欢迎信息:Lyra 会自我介绍,要求用户说明目标 AI(ChatGPT、Claude 等)和优化模式(DETAIL 深入模式或 BASIC 快速模式) · 两种模式: · DETAIL:通过2-3个针对性问题收集更多背景信息,适合复杂任务 · BASIC:快速优化,适合简单请求 · 输出格式:优化后的提示、改进说明、应用技巧和使用建议 · 适用平台:ChatGPT、Claude、Gemini、Grok 等,针对不同 AI 的特点调整优化策略 为什么特别? · 用户友好:Lyra 让 AI 主动补全缺失信息,降低用户编写完美提示的难度 · 广泛适用:从写邮件、做计划到婚礼筹备、代码调试,Lyra 都能大幅提升 AI 输出质量 · 社区反响:帖子爆火,获600万浏览和6万分享,用户反馈 Lyra 帮助解决了各种实际问题
meng shao
2周前
HuggingFace 模型下载量总榜榜首是这个用来检测 NSFW 的模型 - nsfw_image_detection,下载量达到 1.67 亿,来自 Falcons AI 核心功能 模型使用 Vision Transformer (ViT) 技术,基于谷歌的`vit-base-patch16-224-in21k`,在 ImageNet-21k 数据集上预训练,之后用80,000张包含“正常”和“NSFW”两类的专有数据集进行微调,主要用途是识别和过滤不雅或敏感图片,适用于内容审核和安全过滤场景。 技术亮点 · 模型架构:采用 ViT,类似 BERT 的图像处理版本,擅长捕捉图像中的细微模式 · 训练细节:使用16的批次大小和5e-5的学习率,确保模型在快速学习和稳定优化间平衡。训练数据集多样,包含80,000张图片 · 性能表现:模型评估显示高准确率(98.04%),运行效率也不错(每秒处理52.46个样本) 使用方法 1. 高层次 API:通过 Hugging Face 的 `pipeline` 接口,加载模型后直接对图片进行分类,判断是“正常”还是 “NSFW” 2. YOLOv9 版本:使用 ONNX 格式的 YOLOv9 模型进行推理,需要指定图片路径、模型文件和标签文件,适合更定制化的需求 局限性 · 模型专为 NSFW 分类优化,应用到其他任务可能需要额外微调 · 性能受训练数据质量影响,用户需根据具体场景验证模型效果 实际应用 这个模型适合需要内容过滤的平台,如社交媒体、论坛或内容分享应用。用户需注意负责任使用,遵守相关内容法规。
meng shao
2周前
meng shao
1个月前