#工程实践

henu王凯

2周前

重磅：Claude官方分享自己构建多智能体研究系统的经验（就是Claude对话框中Research功能，类似ChatGPT、Gemini等的深度研究功能）。这是一手工程实践经验，对构建任何Agents都是可借鉴的，推荐大家都读下。

AI编程工具激战：Claude Code、Gemini Cli崛起· 137 条信息

AI编程：Gemini免费用，Claude手机玩· 192 条信息

#Claude #多智能体 #Research功能 #ChatGPT #Gemini #工程实践 #Agents

ginobefun

2周前

#BestBlogs 从 browser-use 出发，品 Agent 实现 | 阿里云开发者从工程师视角深入解析了 LLM Agent 的实现原理与工程实践，以开源项目 browser-use 为例。摘要：本文从工程师的视角出发，系统地回顾了 LLM 应用从纯对话到 Workflow 编排再到 Agent 的演进过程。重点阐述了 Agent 的三个核心组成部分：记忆(Memory)、规划(Planning)和工具(Tools)。详细介绍了 Agent 的两种规划范式（分解优先与交错分解）和记忆的分类（短期与长期）。作者以 browser-use 项目为例，剖析了其工程架构，包括 Agent Core、MessageManager、Memory、LLM Interface、Controller 和 BrowserContext 等组件及其交互流程。文中特别强调了 SystemPrompt、AgentMessagePrompt、PlannerPrompt 和 toolPrompt 在 Agent 运行中的作用，并分析了 browser-use 如何通过 SystemPrompt、示例引导和 Pydantic 进行结构化输出的保证。最后，文章探讨了 browser-use 的记忆管理实现，并对生产环境的持久化存储提出了建议。主要内容: 1. Agent 是 LLM 应用演进的新阶段，具备自主规划和执行能力。 -- Agent 相比 Workflow 编排更进一步，能够根据用户需求自主决策、规划步骤，并调用工具与环境交互，大幅提升生产力。 2. 记忆、规划和工具是构建 Agent 的三大核心要素。 -- 记忆（短期/长期）提供上下文和经验，规划负责任务分解和策略调整，工具赋予 Agent 与外部世界交互的能力。 3. ReAct 框架是实现 Agent 运行时逻辑的有效方式。 -- 借鉴人类思维模式，通过思考(Thought)→行动(Action)→观察(Observation)循环，使 Agent 能逐步逼近目标并从错误中学习。 4. 结构化输出是 Agent 稳定性的核心。 -- 通过在 System Prompt 中明确格式、提供示例和使用 Pydantic 等工具进行强制验证，确保 LLM 输出稳定可靠，便于后续处理和工具调用。

#LLM #agent #工程实践 #开源项目