时政
财经
科技
登录
#工程实践
关注
henu王凯
2周前
重磅:Claude官方分享自己构建多智能体研究系统的经验(就是Claude对话框中Research功能,类似ChatGPT、Gemini等的深度研究功能)。 这是一手工程实践经验,对构建任何Agents都是可借鉴的,推荐大家都读下。
AI编程工具激战:Claude Code、Gemini Cli崛起· 137 条信息
AI编程:Gemini免费用,Claude手机玩· 192 条信息
#Claude
#多智能体
#Research功能
#ChatGPT
#Gemini
#工程实践
#Agents
分享
评论 0
0
ginobefun
2周前
#BestBlogs 从 browser-use 出发,品 Agent 实现 | 阿里云开发者 从工程师视角深入解析了 LLM Agent 的实现原理与工程实践,以开源项目 browser-use 为例。 摘要: 本文从工程师的视角出发,系统地回顾了 LLM 应用从纯对话到 Workflow 编排再到 Agent 的演进过程。重点阐述了 Agent 的三个核心组成部分:记忆(Memory)、规划(Planning)和工具(Tools)。详细介绍了 Agent 的两种规划范式(分解优先与交错分解)和记忆的分类(短期与长期)。 作者以 browser-use 项目为例,剖析了其工程架构,包括 Agent Core、MessageManager、Memory、LLM Interface、Controller 和 BrowserContext 等组件及其交互流程。文中特别强调了 SystemPrompt、AgentMessagePrompt、PlannerPrompt 和 toolPrompt 在 Agent 运行中的作用,并分析了 browser-use 如何通过 SystemPrompt、示例引导和 Pydantic 进行结构化输出的保证。最后,文章探讨了 browser-use 的记忆管理实现,并对生产环境的持久化存储提出了建议。 主要内容: 1. Agent 是 LLM 应用演进的新阶段,具备自主规划和执行能力。 -- Agent 相比 Workflow 编排更进一步,能够根据用户需求自主决策、规划步骤,并调用工具与环境交互,大幅提升生产力。 2. 记忆、规划和工具是构建 Agent 的三大核心要素。 -- 记忆(短期/长期)提供上下文和经验,规划负责任务分解和策略调整,工具赋予 Agent 与外部世界交互的能力。 3. ReAct 框架是实现 Agent 运行时逻辑的有效方式。 -- 借鉴人类思维模式,通过思考(Thought)→行动(Action)→观察(Observation)循环,使 Agent 能逐步逼近目标并从错误中学习。 4. 结构化输出是 Agent 稳定性的核心。 -- 通过在 System Prompt 中明确格式、提供示例和使用 Pydantic 等工具进行强制验证,确保 LLM 输出稳定可靠,便于后续处理和工具调用。
#LLM
#agent
#工程实践
#开源项目
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞