#智能体

《智能体设计模式》第六章「规划模式」完成翻译,目前已翻译章节: 00 - 前言部分 01 - 第一章:提示链模式 02 - 第二章:路由模式 03 - 第三章:并行模式 04 - 第四章:反思模式 05 - 第五章:工具使用模式 06 - 第六章:规划模式 规划模式让智能体具备前瞻性思维能力,能够将复杂任务拆解为更小且可管理的步骤,并制定实现预期结果的策略。通过规划能力,智能体不再只是对眼前输入作出反应,而是能够自主规划从初始状态到目标状态的完整路径。这里为大家梳理几个关键要点: 1. 核心理念:从被动响应到主动规划 规划模式的核心在于建立「理解目标 → 制定计划 → 执行步骤 → 灵活调整」的智能流程,让智能体具备战略性、目标导向的执行能力。 - 传统模式的局限:基础智能体只能对眼前输入作出反应,缺乏处理复杂多步骤任务的能力,无法将高层次目标拆解为可执行的子任务。 - 规划模式的价值:智能体能够接收高层次目标并自主拆解为有序的执行步骤,在遇到阻碍时灵活调整路线,从而有效处理包含多个步骤和相互依赖的复杂任务。 2. 规划的关键特征 规划模式通过以下特征实现智能化的任务执行: - 目标驱动:接收高层次的目标声明(做什么)而非具体指令(如何做」,由智能体自主决定实现路径。 - 即时生成:计划不是预先存在的,而是根据当前状况和目标要求即时生成的。 - 灵活应变:初步计划只是出发点,智能体能够接纳新信息并在遇到阻碍时动态调整策略。 - 结构化分解:将复杂目标拆解为一系列更小、可执行的步骤或子目标,按逻辑顺序处理依赖关系。 3. 典型应用场景 规划模式在四大领域展现出核心价值: - 流程自动化:编排复杂工作流,如新员工入职流程,包括创建账户、分配培训、部门协调等有序子任务。 - 机器人与自主导航:进行状态空间遍历,生成从起始状态到目标状态的最优路径,同时遵守环境约束。 - 结构化信息整合:生成研究报告等复杂输出,规划包含信息收集、数据归纳、内容结构化、迭代打磨等阶段。 - 多步骤问题解决:制定并对系统化流程进行诊断、实施解决方案,并在必要时升级处理。 4. 实现框架与特点 - CrewAI:通过定义明确的智能体角色和任务,支持先规划后执行的工作流,适合结构化的多步骤任务。 - Google 深度研究:利用多步骤动态迭代流程,把用户提示拆解为研究计划,循环执行搜索与分析,生成带引用的结构化报告。 - OpenAI 深度研究接口:提供编程化控制能力,支持 MCP 协议连接私有知识库,展示完整的中间步骤(推理、搜索、代码执行)。 5. 使用时机与权衡 当任务复杂度超出单一操作范围时,应当使用规划模式,但需要权衡灵活性与可预测性: - 适用场景:任务需要多个相互依赖的步骤才能完成;「如何做」的方案需要探索而非已经明确;需要自动化处理复杂的工作流程;需要生成全面、综合的结果。 - 权衡考量:当问题的解决方法已经清楚且可重复时,固定流程比动态规划更有效;规划增加灵活性的同时也引入了不确定性;需要在自主性和可预测性之间找到平衡。 - 核心价值:将智能体从简单的被动响应者提升为战略性、目标导向的执行者,能够管理复杂流程并产出全面综合的结果。 点击项目链接 可双语对照阅读,跟踪最新翻译进展,也欢迎加入交流群一起阅读讨论、反馈问题或随个 Star ~
Y11
4周前
最近接触AI时,我常被“Agent”和“Assistant”这两个词绕进去。 后来想明白了,这就像我们身边的两种工具:一种是“助手”,一种是“能自己干活的智能体”。 先说说Assistant,它更像我们日常用的语音助手,比如手机里的Siri、小爱同学。 你问它“今天天气怎么样”,它就直接回答;你说“设置个明天早上8点的闹钟”,它就照做。这种工具的核心是“被动响应”——必须等你发出明确指令,它才会行动,而且做的事情都是提前设定好的,不会自己“多想一步”。 就像一个熟练的助理,你把任务写清楚,它就按流程完成,不会主动改变计划。 而Agent就不一样了。它更像一个“能自己规划的小团队”。比如你让它“帮我买一杯咖啡”,它不会直接打开外卖软件下单,而是会先拆解问题:需要确定附近有哪些咖啡店、哪家有优惠、当前配送时间够不够、钱够不够付……然后一步步调用工具去实现。它有自己的“思考能力”,能根据实际情况调整策略,甚至在遇到突发问题时(比如某家店突然关门),还能临时换一家。这种自主性让它能处理更复杂的事情,就像一个有经验的项目负责人,能把大目标拆成小步骤,自己推进完成。 我总结了一下两者的关键区别:Assistant是“执行者”,Agent是“决策者+执行者”。打个比方,对安全团队来说(这是我最近关注的领域),P5级别的安全工程师可能就像Assistant,需要别人明确告诉他“检查服务器漏洞”“处理某个安全事件”,他才动手;而P6级别的工程师就开始接近Agent了,能自己拆解问题,比如从“防范勒索病毒”这个大目标,分解出“加固终端防护”“检查备份策略”“培训员工安全意识”等多个小任务,并且能根据实际情况调整优先级。 再往远想,2023年AI技术已经给智能体装上了“大脑”(推理能力)、“眼睛”(视觉识别)、“耳朵”(语音处理)和“记忆力”(数据存储)。2024年,大家可能会看到它们长出“身体”——也就是“具身能力”,比如能自己操作设备、在真实环境中移动。 至于更高级的P7级安全工程师,可能需要智能体具备“自我进化”能力:比如自己发现工作流程中的漏洞,主动优化方法,甚至在没有人工指导的情况下,通过学习新的攻击手段来提升防护能力。这种能力现在看还比较遥远,但技术发展的速度,说不定哪天就实现了。 说到底,理解这两个概念,其实是在看AI从“被动服务”到“主动创造”的进化。就像从用计算器到用能自己解题的数学软件,区别不在于“算得快”,而在于“能不能自己搞懂怎么算”。
ginobefun
1个月前
《智能体设计模式》中文翻译计划启动 接下来的一周,我将通过 AI 初次翻译 → AI 交叉评审 → 人工精读优化的方式来翻译这本书,所有翻译内容将持续更新到开源项目: 本书由 Antonio Gulli 撰写、谷歌 Cloud AI 副总裁 Saurabh Tiwary 作序、高盛 CIO Marco Argenti 鼎力推荐,系统性地提炼出 21 个核心智能体设计模式,涵盖从提示链、工具使用到多智能体协作、自我修正等关键技术。更难得的是,本书的所有版税都将捐赠给救助儿童会,这是一份真正属于开发者社区的公益之作。 前言部分精华概览 今天完成了前言部分的人工校对,完成的翻译内容我已发布到公众号 ,这里为大家梳理几个关键要点: 1. 来自行业领袖的深度洞见 谷歌 Cloud AI 副总裁 Saurabh Tiwary 在序言中指出,我们正在从构建「仅能处理信息的模型」,迈向创造「能够推理、规划和行动的智能系统」。他将智能体开发比作在画布上创作,而设计模式正是这块画布上的基本笔触。 高盛 CIO Marco Argenti 则以「权力与责任」为题,分享了他对智能体技术的深刻思考。他坦言自己最初是怀疑的——早期模型「被优化的目标是追求可信度,而非正确性」。但推理模型的出现带来了质的飞跃,他第一次试用智能体编程工具时,「感受到了那种久违的、如魔法般的火花」。 更重要的是,Marco 强调了专业精神和企业文化的重要性。在金融这样高风险的领域,智能体的失误代价巨大。他提出的三大原则值得所有开发者铭记: - 为使命而构建:确保每个智能体都始于对客户问题的清晰理解 - 洞见未来,防患未然:预见失败模式,设计具有韧性的系统 - 启迪信任,不负所托:对方法保持透明,对结果负责 2. 什么是智能体系统? 书中给出了清晰的定义:智能体系统是一种能够感知环境、根据目标做出决策、并自主执行行动的计算实体。 不同于遵循固定脚本的传统软件,智能体系统具备以下核心特征: - 自主性:无需持续人工监督即可行动 - 主动性:能主动发起行动以实现目标 - 反应性:能有效应对环境变化 - 工具使用:与外部 API、数据库或服务交互 - 记忆:在多次交互中保留信息 - 通信:与用户、系统或其他智能体交互 3. 智能体的演进层级 书中提出了一个实用的智能体分级框架: - 0 级:核心推理引擎 - 大语言模型本身,仅基于预训练知识响应,无法感知当前事件。 - 1 级:连接外部的问题解决者 - 能够使用外部工具来解决超出预训练知识范围的问题。这是 RAG 技术的典型应用场景。 - 2 级:战略性问题解决者 - 具备战略规划、主动协助和自我提升能力。核心赋能技能是提示工程和上下文工程。它能够战略性地选择、打包和管理最相关信息,确保高效决策。 - 3 级:协作型多智能体系统 - 这是一次重大范式转变:不再追求单一全能的超级智能体,而是转向复杂的、协作式的多智能体系统。就像人类组织一样,由不同专家组成的团队协同工作,通过劳动分工和协调产生强大的协同效应。 4. 智能体的未来:五大假设 书中对智能体的未来提出了五个极具前瞻性的假设: 假设 1:通用智能体的崛起 - 从狭隘专家演变为能高可靠性管理复杂、模糊、长期目标的通用型选手。替代路径是「乐高式」的小型语言模型组合。 假设 2:深度个性化与主动发现目标 - 智能体将成为深度个性化的主动合作伙伴,不仅响应指令,更能预测需求,主动发现和支持用户的潜在目标。 假设 3:具身化与物理世界交互 - 通过与机器人技术结合,智能体将挣脱数字束缚,在物理世界中运作,弥合数字智能与物理行动的鸿沟。 假设 4:智能体驱动的经济 - 高度自主的智能体将成为经济中的积极参与者,创造新的市场和商业模式,形成超高效率的「智能体经济」。 假设 5:目标驱动的、可演化的多智能体系统 - 系统能基于声明性目标自主运作,动态修改多智能体工作团队的拓扑结构,在架构层面和指令层面实现真正的自我演化。
Barret李靖
1个月前
软件开发里有一种叫 TDD(Test-Driven Development)的方式,简单讲,就是先写好测试用例,然后再写程序。每写一部分代码就立刻跑对应的测试,看能不能通过。能通过说明实现符合预期,不通过就说明有 bug。TDD 的好处在于,它让整个研发过程可验证、可回归,也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD,只不过测试用例变成了数据集(Dataset)。每一次模型迭代,本质上就是在跑新的单测(Benchmark)。MMLU 测知识广度,GSM8K 测逻辑推理,HumanEval 测编程能力,AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩,Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑,每一代 AI 都得交卷。 2025 可以说是智能体(Agent)元年,模型不再只靠会算、会说来评估,而是要能动手。要让一个 Agent 真正好用,光靠写 Prompt、加检索、拼上下文是不够的,它得能使用工具,能执行 Python、Shell、SQL,能感知状态、理解任务依赖,更要能在反馈中调整自己的行为。评估 Agent 好不好用,也就不能只看单轮问答,而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子,让 Agent 去修真实项目里的 Bug,看能否通过单测。OpenAI 的 MLE-bench 则更进一步,考察 Agent 在机器学习工程中的执行力,从读数据、清洗、编程、训练,到收集指标、分析再改进,形成一个完整的闭环。社区里还在探索更复杂的测试,比如 App-bench,看 Agent 是否能独立开发一个 Web 应用,从前端到后端再到部署上线;或者 Ops-bench,让它去处理运维任务,比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步,正在从“能思考”走向“能执行”。TDD 让软件工程可验证,而在 AI 世界,Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向,Benchmark 则刻画了行业标准与竞争格局。 未来的竞争,不再是谁的模型更聪明,而是谁的智能体更能干活。真正厉害的 AI,不一定语义最深、参数最多,而是那个能自己规划、自己验证、自己改进的 Agent。换句话说,AI 的未来不只是更聪明的脑子,而是更靠谱的手和脚,能想、能做、还能自己查错修正,这才是“用得上”的智能。
Barret李靖
1个月前
苏杰在 2010 年写了一本书,叫《人人都是产品经理》。十五年过去了,站在今天,或许也可以说,“人人都是程序员”,因为编程的范式正在发生深刻变化。 在神经网络出现之前(2012 年代表作是 AlexNet),可以称为编程 1.0 阶段。那时我们依赖确定性的逻辑来解决问题:a 就是 a,b 就是 b,程序的执行路径清晰、固定。 神经网络的出现带来了编程 2.0。通过在不同数据集上的训练,我们可以不断调整网络中每个节点的权重,进而影响最终输出。编程的任务变成了设定问题的起点与终点,神经网络则在“答题空间”里寻找解答。这个答案未必最优,但能有效解决问题。Karpathy 在 2017 年的《Software 2.0》里对此做了系统阐述。 而到了大模型时代,可以称之为编程 3.0。神经网络本身进化为“可编程体”,编程语言就是 Prompt。人们不再需要写复杂的函数和条件判断,而是通过自然语言来影响模型的推理过程。Prompt 之所以能改变输出,是因为它重塑了模型的“输入分布”,从而改变了注意力的聚焦点与解题路径。换句话说,Prompt 相当于在潜在的解题空间里拉起一条“轨道”,引导模型更快更准地落在某类答案上。 从“写死逻辑”到“训练权重”,再到“语言编程”,编程的本质正在从 控制计算机,转向 引导智能体。未来,当人人都能以语言驱动智能,编程将不再是少数人的技能,而会像写作一样,成为每个人的日常能力。