#agent

1周前
Refly 正式进入新篇章!🎉 我们正式发布全球首个开源的 「Vibe Workflow」平台,并同时登录云服务和开源社区版!🚀 现在你可以直接动动嘴就能构建复杂的 Workflow 并生成多模态工作结果如 PPT、网页、播客、视频等💥 后续我们还将支持 Workflow 一键运行并输出成 API 💪 此次 v0.7.0 更新超过 50000 行代码的重大版本中,我们将用户与 Agent 协作完成工作任务的体验推向了下一个阶段,给全球的 Vibe Coder 带来了如下令人振奋的能力: 1️⃣ 首创 「Vibe Workflow」,让工作过程真正「起飞 Refly😋」,用户动动嘴就能够完成复杂工作流搭建并直接完成工作结果交付 2️⃣ 最独特的是🤯,你还能修改 Agent 生成的 Workflow 的中间节点实现对结果的精细化微调,完成生产可用结果交付的最后一公里 💥 3️⃣ 提供可能是业界首个支持自由配置的 MCP 的 AI 画布产品,结合 Agent + MCP 自由配置+自由画布上下文组织能力,探索 AI 创作无限可能 作为首创开源 Agent + 自由画布的先行者, 我们后续将持续在多模型,多模态产物交付、Agent、MCP 和 Vibe Workflow 上积累工程和体验能力,为社区注入活力🥳💪 目前 Refly 已收获了数万名用户的私有化部署或云端使用,并且得益于 Refly 独特的产品能力,我们已经实现了真正的正向盈利☄️ 为了迎接接下来 Refly 新阶段的发展,我们提出全新使命,我们坚信「让 Workflow 不再神秘,变成每个人都真正可用的强大 AI 创作工具!」🌈 期待与社区的大家一起探索「Vibe Workflow」的能力边界🚀! 去 Github 中了解 Refly v0.7.0 👉 在云服务中直接体验 Refly Agent + MCP 带来的强大「Vibe Workflow」能力 👉 #Refly #VibeCoding #VibeWorkflow #Agent #MCP #Workflow
2周前
推荐阅读 20250617 ① 📈 2025 年中 AI 共识:技术、产品与资本新格局 - 2025 年被行业确立为 “Agent 之年”,但底层技术的发展并非简单的替代,而是 L2 推理模型与基础模型能力的持续深化。 - AI 行业呈现新版 “安迪-比尔定律”,Agent 执行任务时长的增速远超算力成本下降的速度,如何衡量与评估 Agent 能力的 benchmark 设计已成难题。 - AI 产品交付逻辑正从 “敏捷开发” 转向 “雕刻艺术”,即从一个无所不能的大模型中,通过限定边界来交付稳定可靠的结果。   📖 小宇宙: PPT 下载: AI 转录: ② ⚔️ 国产大模型同日竞技:MiniMax-M1 vs. Kimi-Dev-72B - MiniMax-M1 拥有全球最长的 100 万 token 上下文窗口和最强的智能体工具使用能力,并能轻松生成交互式 Web 应用和游戏。 - 月之暗面 Kimi-Dev-72B 专攻编程,在代码生成权威基准 SWE-bench Verified 上取得了全新的 SOTA 记录。 - 两者均采用大规模强化学习进行优化,并已开放模型权重,为开发者提供了强大的新工具。   📖 详细: ③ 🤖 LangChain 继续探讨热门话题:多智能体系统,建还是不建? - 本文深入分析了 Cognition 与 Anthropic 两篇关于多智能体的文章,尽管标题看似对立,核心洞见却高度一致。 - 强调 “上下文工程” (Context Engineering) 是构建智能体应用的第一要务,它超越了传统的提示工程 (Prompt Engineering),是系统成功的关键。 - 揭示了多智能体架构的核心原则:系统更适用于并行的“读取” 密集型任务(如研究),而非易产生冲突的“写入” 密集型任务(如编码)。   📖 详细: ④ 🧠 腾讯实习生硬核总结:Agent 与 RAG 入门与实战 - 亲历腾讯 IEG/WXG 项目,作者用“血泪 Debug 经验”为 AI 新手绘制 Agent 与 RAG 的入门路线图。 - 用“人话说明书”讲透两大技术核心,从 RAG 的检索增强生成到 Agent 的规划、记忆与工具使用。 - 一站式解决 AI 应用中的“幻觉”与“空谈”问题,帮助开发者从青铜快速上分,实现从理想到落地的跨越。   📖 详细: ⑤ 🧠 给 Staff+ 工程师的战略思维指南 - 战略思维是一种心态,而非单纯的技能,是连接技术执行与商业愿景的关键桥梁。 - 提供一套可落地的战略框架:从诊断与洞察出发,建立指导原则,并转化为连贯的行动 。 - 强调领导者需为工程师提供充分的业务与技术背景,并确保他们在关键决策桌上拥有一席之地。 📖 详细:
2周前
#BestBlogs 从 browser-use 出发,品 Agent 实现 | 阿里云开发者 从工程师视角深入解析了 LLM Agent 的实现原理与工程实践,以开源项目 browser-use 为例。 摘要: 本文从工程师的视角出发,系统地回顾了 LLM 应用从纯对话到 Workflow 编排再到 Agent 的演进过程。重点阐述了 Agent 的三个核心组成部分:记忆(Memory)、规划(Planning)和工具(Tools)。详细介绍了 Agent 的两种规划范式(分解优先与交错分解)和记忆的分类(短期与长期)。 作者以 browser-use 项目为例,剖析了其工程架构,包括 Agent Core、MessageManager、Memory、LLM Interface、Controller 和 BrowserContext 等组件及其交互流程。文中特别强调了 SystemPrompt、AgentMessagePrompt、PlannerPrompt 和 toolPrompt 在 Agent 运行中的作用,并分析了 browser-use 如何通过 SystemPrompt、示例引导和 Pydantic 进行结构化输出的保证。最后,文章探讨了 browser-use 的记忆管理实现,并对生产环境的持久化存储提出了建议。 主要内容: 1. Agent 是 LLM 应用演进的新阶段,具备自主规划和执行能力。 -- Agent 相比 Workflow 编排更进一步,能够根据用户需求自主决策、规划步骤,并调用工具与环境交互,大幅提升生产力。 2. 记忆、规划和工具是构建 Agent 的三大核心要素。 -- 记忆(短期/长期)提供上下文和经验,规划负责任务分解和策略调整,工具赋予 Agent 与外部世界交互的能力。 3. ReAct 框架是实现 Agent 运行时逻辑的有效方式。 -- 借鉴人类思维模式,通过思考(Thought)→行动(Action)→观察(Observation)循环,使 Agent 能逐步逼近目标并从错误中学习。 4. 结构化输出是 Agent 稳定性的核心。 -- 通过在 System Prompt 中明确格式、提供示例和使用 Pydantic 等工具进行强制验证,确保 LLM 输出稳定可靠,便于后续处理和工具调用。
1个月前
如果你搞不懂什么是Agent / workflow / Agentic / ReACT 那可以看看我的大白话注释: ---------------- Agent , 广泛意义上讲,是一个智能黑盒,你给一个input,Agent识别意图,按照它自己的设定去给你一个output 这个黑盒里,很可能出现套娃情况,那也就是MultiAgent,但实际上对外是无感知的,大家仍然把它理解成「一个」Agent,但可能他是个Agent Team 狭隘来说,Agent就是一个定义了Prompt,打通了tools与Rag的LLM 至于说workflow,只是一种多Agent作业的形式,管这里面的串联的各类作业流程统称在一起叫Workflow 也就是说: Agent > 工人,或者施工团队 workflow > 施工流程 ------------------ 接下来,workflow是一体两面的 既有Agentic的,也有rule-based的 Agentic就是智能化的,让AI自己去识别意图,定位问题,思考并规划解决方案 Rule-based,就是标准的SOP,AI就是按照人既定的路线进行处理 开放性问题,或者没有经验的探索性问题,就需要偏Agentic,交给AI自己来做,因为没有经验,也没有SOP,更多情况下就是试错>获得经验>沉淀有效经验>慢慢形成固定方法,它更适合系统性的解决泛化问题 明确的问题,已经有固定的处理方法了,很清楚人类是如何处理这类问题的,AI直接COPY完事,那就是Rule-based 你只要按照既定的路线写个规则,让AI照着干,就好了 你想想,日常工作中,是不是既需要创新型人才去探索未知,也需要培训苦力螺丝钉按照既定路线执行? 所以Agent也是这样,既需要agentic,也需要rule-based 这便是一体两面钟摆两端 经常性的情况是,MultiAgent中既有负责agentic的,也有负责rule-based的,这就是阴中有阳,阳中有阴 --------------- 那什么是ReACT 人要在干中学,Agent也是如此 光有RAG就像百看兵书的赵括,他想成为白起,就需要ReACT 说白了就是实践,与真实世界交互 每次交互,你都会拿回来一次数据,这就是经验 去分析经验,将有效经验沉淀到知识库,进而增强RAG,这个Agent就会变强了一点儿,这就是ReACT ----------------- 说到这里就不难理解 Agentic workflow往往是动态变化的 Rule-based workflow在某段时期内一般是静态的 前者幻觉更多,因为要试错 后者幻觉更少,因为更确定 前者更适合去ReACT 后者更适合去精准提升细分场景成功率 而实际中往往都会混合使用,在一个MultiAgent中,既有Agentic workflow,又同时存在rule-based workflow 比如在规划时,是Agentic的,干具体任务时,分工给的Agent又是rule-based ------------------ 因为有这些东西,才会凸显出工程化的意义 否则大家做的套壳,没有任何壁垒 唯一能做的就是等着基础模型变强罢了
1个月前
需求面前,Agent 并不比 workflow 高级 (这边的讨论氛围太好了,拜几位大 V 转发,这个号算是冷启了。也发发我在其他平台的一些旧文) 一位刚融资的 AI 创业朋友夜里两点给我发微信:"我们团队争论一整天了,投资人希望看到更'高级'的 agent,但我们现在的 workflow 方案其实更实用...你说我们该怎么选?" 你看,搞 AI 的人人都在 FOMO(Fear Of Missing Out,害怕错过)——仿佛不做 agent 就落伍了,做了 workflow 就没有故事可讲。 概念与需求的错位 如今,"agent"已经成为智力上限突破的代名词。越是自发自动、高自由度的 AI,就越被认为是技术前沿。创业路演中,"自主决策"、"自动执行"、"智能规划"这些词汇成了标配。 但现实很残酷 —— 高级的锤子也需要适配合适的钉子。 在用户的实际问题(钉子)没变得足够复杂之前,过于高级的解决方案(锤子)很可能是一种资源浪费。上周我参观的一家 AI 创业公司,花了 4 个月开发了一个"全自主思考"的 agent,结果用户最常用的功能竟然是"帮我整理这份会议记录"。 预期管理是最大挑战 当下 AI 应用落地的最大难题之一,就是如何控制用户预期。 agent 的全自动预期真的能在短期内实现吗?更关键的是,全自动真的能处理所有那些棘手的 Corner case(边缘情况)吗? 仔细想想,当这些 Corner case 需要反复微调,且调整起来未必能精准命中时,是不是预先设计好的 workflow 反而更可靠? 认识到一个团队上个月做了个难受的测试:同一组任务,分别用"智能 agent"和"固定 workflow"解决: agent 方案:完成率 76%,平均耗时 13.5 分钟,用户满意度 6.8/10 workflow 方案:完成率 94%,平均耗时 7.2 分钟,用户满意度 8.5/10 这结果说明了什么?那些看似"低级"的脏活累活,恰恰可能是最有价值的壁垒。难道只有高概念、高智能才算是竞争优势?这或许只是面向投资人的故事,而非面向用户的价值。 榜单背后的市场选择 第三个现象更耐人寻味:去看看 Product Hunt 等产品榜单,稳定的头部产品几乎都是 workflow 类,真正的 agent 产品寥寥无几。为什么会这样? 因为需求本质没有变。 大模型公司确实有话语权,它们需要讲述足够宏大的故事,构建更具想象力的生态。媒体也需要新概念和新噱头来吸引眼球。这些我都理解。 但当浮躁的概念退去,留下的仍是用户最基础的需求。"帮我解决问题,省时省力"—— 这才是产品存在的根本理由。 从概念回归价值 当开发者们争论"agent vs workflow"时,我建议从三个维度重新审视: 需求主导技术不该问"我是做 agent 还是 workflow",而应该问"用户的痛点是什么,哪种方案能更可靠地解决"。在面对"我要赚钱"的投资人和"我要解决问题"的用户时,明智的创业者知道该听谁的。 可靠性胜过智能性一个可靠解决 80% 场景的半自动化产品,往往比一个时灵时不灵的"全能 agent"更有商业价值。用户容忍的不是功能上限,而是下限。 解决问题比讲故事重要投资人喜欢故事,但用户只在乎结果。在炒作"全能 agent"概念的同时,有多少团队真正关注过用户反馈? 上个月我与一位做 AI 文档处理的创始人交流,他的产品表面上像 workflow,背后却有 agent 的思想。他说:"与其自称 agent 但做不到,不如默默做好 workflow 但超出预期。前者失望,后者惊喜。" 这话说到了点子上。 说到底,真正的技术壁垒不是概念有多前沿,而是解决问题有多彻底。 需求面前,没有高级不高级,只有有用和没用。那些能扎扎实实降低用户成本、提高工作效率的产品,无论叫什么名字,最终都会赢得市场认可。
读书笔记:当 LLM 成为 Agent——从自然语言到“协议语言”的演化 这两周选了四篇极其出色的文章做了分享,ReSearch, ReTool, APR 和 PASTA。 它们虽然解决的具体问题不相同,但 general 的目标都一致,即让LLM知道 when and how 做决策,这就是agent的核心,要做精准的决策。 而这种精准与人类语言的模糊性不一致,但 LLM 的 token 与人类的语言一致性更强,所以 LLM 的输出具有一定的模糊性,作为 Agent , 在做上述精准决策的时候就会出现问题。 于是四篇文章的方法在思想上完全一致,即在自然语言中,插入“协议 token”,让自然语言更有结构化,更偏近机器语言。 PASTA, 引入 <<promise>> <<async>> <<sync>>, 来完成精准的切换异步/同步解码。 APR,引入spawn() / join(), 来决策何时并行/收束多推理线程。 ReSearch, <think> <search> <result> , 来决策何时搜索、何时用结果。 ReTool, 引入<code> <interpreter>, 来决策何时执行代码解释器。 这些“协议 token”,并不存在于人类的自然语言中,但却跟机器语言息息相关。 它们都用显式标记把“语言”切片成更像API 调用或并发原语的片段,让模型能在生成阶段“自编写脚本”,再由调度器或工具链执行。 人类语言 vs. 机器语言: 人类语言:高容错、重语义、含糊其辞,适合表达不确定性与情感。 机器语言:零歧义、结构化、强约束,适合编排确定性任务。 当 LLM 既要与人类沟通又要驱动工具,它必须在两种范式间切换。于是“协议语言(Protocol Language)”就必然出现了:在自然语言流中嵌入可解析的指令标记,既让人类读得懂,又让机器能精准执行。 一些展望: 未来的一段时间,类似的在自然语言中插入“协议 token”的工作一定会越来越多。 未来的“协议 token”可能携带类型、权限、资源预算等元数据,让决策粒度从 When 进一步细化到用多少 computing resource 。 目前的“协议 token”还基本停留在,一套协议解决一个问题的阶段。如果LLM的generalization继续演化,可以会出现一套协议多个问题,或者多套协议多个问题的形态。 当 LLM 从Chatbot演化为Agent,语言的角色正在从沟通媒介变成执行协议。但自然语言不会被淘汰,而是被包裹进更精确、更可组合的结构化符号中——让instruct与action在同一个文本流里无缝衔接。