meng shao
2个月前
Claude Skills 全解析:模块化构建高效智能体的「技能」,跟提示词、项目、MCP、子智能体有什么区别? Claude Skills「技能」作为模块化工具,能显著提升 AI 在复杂工作流中的效率与一致性。Anthropic 最新博客客观比较了技能与提示、项目、MCP 和子智能体,帮助用户精准选择工具来构建智能体。核心观点是:技能不是一次性指令,而是动态加载的“专业手册”,特别适合重复性任务和领域专长。 技能是什么? 技能是一个包含指令、脚本和资源的“文件夹”,Claude 会根据任务相关性自动发现并加载。它像一本专属培训手册: · 品牌指南技能可自动应用公司颜色、字体和排版规则; · 数据分析技能则内置 Excel 公式、PDF 处理技巧等。 技能适用于三类场景: 1. 组织工作流:如合规检查、文档模板,确保团队输出标准化。 2. 领域专长:如研究方法、代码模式,提供专业知识。 3. 个人偏好:如笔记系统、搜索习惯,定制 AI 行为。 技能如何工作? 技能采用“渐进式披露”机制,高效利用上下文窗口: 1. 元数据预加载(~100 token):快速判断是否匹配任务。 2. 完整指令加载(若相关,<5000 token):提供核心指导。 3. 资源按需加载:脚本或文件仅在必要时引入。 这种设计让 Claude 能同时处理多个技能而不超载,并自动应用最相关项。比如,在研究任务中,Claude 可加载“竞争分析”技能,指导它从 Google Drive 检索最新文档、过滤文件并引用来源。技能因此更像“主动顾问”,而非被动工具。 实际示例与益处(两个案例) · 品牌指南技能:内置调色板、字体、布局规范,用于生成演示文稿或报告,确保风格统一。 · 竞争分析技能:定义文件夹结构、命名规则和搜索最佳实践,帮助 Claude 高效导航云存储,进行跨文档对比。 主要效果包括: · 一致性:重复任务无需重述规则,减少错误。 · 效率:动态加载节省资源,支持大规模部署。 · 可扩展:GitHub 上有开源技能库(),支持自定义与共享。 · 整体提升:结合其他工具,可构建强大工作流,如研究智能体用技能分析数据、子智能体执行编码任务。 与其他组件的区别 特别澄清技能的定位,避免工具混用: · 提示:临时、对话式指令,适合一次性查询;技能更持久、主动,建议将重复提示转化为技能。 · 项目:静态知识库(如上传文档),提供“知道什么”(事实);技能教“如何做”(过程)。 · MCP:连接外部数据(如 Google Drive);技能则指导如何使用 MCP 处理数据(如按日期过滤)。 · 子智能体:独立智能体,带自定义工具,适合复杂任务分解;技能是共享专长,可被任何智能体调用。 例如,一个完整研究智能体可能:项目存战略文件、MCP 拉取实时数据、技能定义分析框架、子智能体处理编码、提示做最终调整。这种模块化设计是技术亮点,适用于开发、生产力和企业级应用。 博客地址
meng shao
2个月前
Claude 最新博客:提示词工程最佳实践 🧠 核心技术 1. 明确清晰 现代 AI 模型对清晰明确的指令响应特别好。不要假设模型会推断你的意图——直接说出来。 举例:创建分析仪表板 · 模糊:"创建一个分析仪表板" · 明确:"创建一个分析仪表板。包含尽可能多的相关功能和交互。超越基础,创建一个功能完整的实现。" 2. 提供上下文和动机 解释为什么某事重要,帮助 AI 更好理解你的目标。 举例:格式偏好 · 效果差:"永远不要使用项目符号" · 效果好:"我更喜欢自然的段落形式,因为我觉得流畅的散文更易读、更有对话感。项目符号对我的休闲学习风格来说太正式了。" 3. 具体化 越具体越好。包括明确的约束条件、相关上下文、期望的输出结构以及任何要求或限制。 4. 使用示例 通过展示而非描述来说明,特别适合解释概念或演示特定格式。这被称为单样本或少样本提示。 重要提醒:Claude 4.x 等现代模型非常关注示例中的细节,确保你的示例符合你想要鼓励的行为。 5. 允许表达不确定性 明确允许 AI 表达不确定性而非猜测,这能减少幻觉并提高可靠性。 举例:"分析这些财务数据并识别趋势。如果数据不足以得出结论,请直说,不要猜测。" 🔝 高级技术 1. 预填充 AI 的响应 通过为 AI 开始响应,引导格式、语气或结构。这对于强制输出格式或跳过开场白特别有效。 2. 思维链提示(Chain of Thought) 要求逐步推理后再回答,有助于复杂的分析任务。 现代方法:Claude 提供了"扩展思考"功能,可自动进行结构化推理。但了解手动思维链在某些情况下仍然有价值。 三种常见实现: · 基础思维链:简单添加"逐步思考" · 引导式思维链:提供特定的推理阶段 · 结构化思维链:使用标签分离推理和最终答案 3. 控制输出格式 · 告诉 AI 要做什么,而非不要做什么 · 让你的提示词风格匹配期望的输出 · 明确说明格式偏好 4. 提示词链(Prompt Chaining) 将复杂任务分解为多个连续步骤,每个提示词处理一个阶段,输出传递给下一条指令。 这种方法牺牲延迟换取更高的准确性。适用于复杂请求、需要迭代改进、多阶段分析等场景。 可能遇到的旧技术 XML 标签结构:曾经推荐用于添加结构和清晰度,但现代模型在没有 XML 标签的情况下也能很好理解结构。在极其复杂的提示词或需要绝对确定内容边界时仍可能有用。 角色提示定义专家角色和视角。虽然有效,但现代模型已足够成熟,沉重的角色提示通常不必要。 组合使用 真正的力量在于策略性地组合这些技术。提示词工程的艺术不是使用所有可用技术,而是为特定需求选择正确的组合。 技术选择指南 · 需要特定输出格式 → 使用示例、预填充或明确格式指令 · 需要逐步推理 → 使用扩展思考(Claude 4.x)或思维链 · 复杂多阶段任务 → 使用提示词链接 · 需要透明推理 → 使用结构化输出的思维链 · 防止幻觉 → 允许说"我不知道" 常见问题排查 · 响应太泛泛 → 增加具体性、示例或明确要求全面输出 · 响应偏题 → 更明确说明实际目标,提供上下文 · 格式不一致 → 添加示例或使用预填充 · 任务太复杂 → 分解为多个提示词 · AI 编造信息 → 明确允许说"不确定" 需要避免的错误 · 过度工程化:更长更复杂的提示词并不总是更好 · 忽略基础:如果核心提示词不清楚,高级技术也无济于事 · 假设 AI 会读心:对想要的内容要具体 · 同时使用所有技术:选择针对特定挑战的技术 · 忘记迭代:第一个提示词很少完美,需要测试和改进 核心建议 提示词工程最终是关于沟通:用帮助 AI 最清楚理解你意图的语言说话。从核心技术开始,持续使用直到成为第二本能。只有在解决特定问题时才添加高级技术。 记住:最好的提示词不是最长或最复杂的,而是用最少必要的结构可靠地实现目标的那个。 提示词工程是上下文工程的基本构建块。每个精心设计的提示词都成为塑造 AI 行为的更大上下文的一部分,与对话历史、附加文件和系统指令一起创造更好的结果。 博客地址:
meng shao
2个月前
裁员?辞退?失业?... 最近几年越来越多听见这些「刺耳」的词,它们往往和另一个词绑在一起:「中年男性」... 三个月之前,我还万万想不到,这些词会跟我有关,从小学到大学的16年,再到校招后工作的16年,自认为还是一个比较「卷」的人,不管上学还是工作。特别在工作中,会尽力让自己成为稀缺的人,作为非科班出身的程序员,我很清楚自己技术基础和深度肯定卷不过科班出身的朋友们,那我就让沟通组织业务能力方向走,做公司里最懂业务的技术人员、最懂技术的运营人员,做管理/业务和产品/技术之间的桥梁,这也是我最近7-8年一直在做的事情,不管 Title 是 CTO 还是软件研发负责人,做的事情大同小异。 可就在三个月前,「裁员」「辞退」「失业」这些词汇一股脑的涌的过来,我被推着完成了「交接」(虽然其实也没交接什么),完成了「失业」,成为了「失业的中年男性」,迅速切换到了「家庭模式」,而那段给我人生第一次「失业」的经历,就像被封存了一样,我不愿意去打开它,也顾不上再去打开它。可能是一种逃避,不是逃避那家公司,因为它实际上已经跟我没什么关系了,也不想再提全名,避免给自己不必要的麻烦,可能是在逃避自己真的做的不好的工作,逃避承认自己这段经历彻头彻尾的失败。 虽然「失业」让我儿子非常开心,那段时间他逢人便说:「我爸爸被裁员啦!好开心,他就可以陪我玩啦」「为什么被裁?因为他老板不喜欢他」... 可能小朋友确实童言无忌的说出了这个俗套的本质,就是老板不喜欢,公司不喜欢,这一点避无可避。这段时间在家里也真的很开心能够陪老婆和孩子,我们一家三口也一起经历了这几个月的重大变化。现在也确实是时候坐下来,认真思考一下到底失败在哪里,有哪些做的好的要吸收,做的不好的以后尽量避免,算是正式给这段经历做个总结和休止,正式把它结案封存起来。 我为什么会加入这家公司? 事情发生在两年多前,无意间接到 HR 电话,说他们公司在招「软件开发经理」。坦白讲,HR 讲的几个经营方向对我都很陌生,其实没太大兴趣。不过 HR 说可以远程面试,那就聊聊吧,记得前后面了 6-7 轮,开发、产品、运营、项目、HR 各种方向都面了一遍,然后去线下面了 CEO 轮,面完之后最大的感觉是:这家公司的人还都挺实在的,没有太虚的说辞,一直都在抛实际问题讨论。虽然对他们的产品业务还是不咋了解,不过对人的印象确实还不错。 当时因为没有急着换工作,在当时公司也不太容易脱身,面试通过后也就放下了,后面终于成功离职后,其实也没想着马上去,甚至没想着去,同时也有其他的机会在找我。 不过后来很巧合的是 HR 突然又找到我,说这个职位还是空缺的,而且现在职责范围更大了,需要同时兼顾产品研发和运营,算是软件方向的负责人吧。这个职位方向我还比较感兴趣,就又约 研发VP 聊了一次,聊完就决定接 Offer 加入了。 入职后的第一印象 入职后我有留心观察每一个接触到的同事,这家公司给我的第一印象是:每个人都很努力,或者说... 都被卷在了一个必须努力的漩涡里,不知这个漩涡是对成功的追求,还是被动于公司绩效考核的要求?反正每个人都想把自己的工作做到「最好」,可以称为「局部最优」。 还有几个很有趣的现象: 1. 公司大领导非常非常非常忙,每天要开 10+ 个会,几乎连轴转,特别是对业务、营销和产品、研发。 2. 公司主要负责人几乎都是非专业出身,也几乎都是在公司很多年,很负责的老人儿。 3. 公司有很完善的项目机制、流程和制度,对应也有很多实力和性格都很「强劲」,或者说「嗷嗷叫」的项目经理。 4. 公司非常崇尚「批评」和「指出问题」,从每天的工作到每年的述职,主旋律都是批评、提出自己和别人的问题,公司认为只要愿意发现和承认问题,解决它就不难了。 5. 公司还很崇尚做「组织调整」,仿佛所有问题都来自己「排兵布阵」的问题,要调整组织形式、重组团队、换负责人,反反复复的做调整,以此来证明自己确实在负责人的位置上「有所为」。 6. 每个团队的互相满意程度都很低,特别是不同的产品和不同的开发团队之间,大家互相都有很多负面评价和情绪,做事更多是靠流程制度推着走,而不是依靠信任一起往前走。这也导致了一个现象:每个团队都要把自己的工作做到「极致」,或者说是「冗余」和「内卷、内耗」来让自己免于责任。不管是营销、产品、设计、测试都是如此,而作为需求的执行方「研发」,普遍就是那个需要消化所有内耗,保证事情做出来的「冤大头」(打引号的,误对号入座 😂) 第一印象的延续 形成了第一印象后,除非有特别大的转折来改变,不然这个印象就会一直跟着你,称为「下意识」的感觉。而我上面对公司的第一印象,也几乎伴随着接下来的 20 个月(入职到辞退)。 虽然组织架构在不断的调整(当然不能说全部都是无效的),产品业务也在不断的变化(有试错,也有迭代),但这个第一印象始终没变。大领导还是非常非常忙,似乎只会越来越忙;虽然有新进来的专业出身的部分负责人,不过主要负责人还是那些老人儿;公司在不断地强化流程制度和规范机制;公司一如既往的崇尚「批评」;调整频率也越来越高;团队间的不和越来越深,只是大家都不明说而已。 第一次想离开 其实入职后1年左右,我就有些想离开了,因为上面种种的第一印象,确实负面情绪远多过正面,在工作中确实找不到太多兴趣和愉悦。我自己对于「硬件研发」的初体验也真的不好,不知道是「硬件研发」确实不适合我,还是「这家公司的硬件研发」而已,无从得知了,毕竟没经历过其他硬件公司。 为什么没走呢?首先肯定是没有立马找到更满意的工作 😂,而且身处负面的情绪中,也很担心因为急于离开而看不清面前的坑,不小心「又」跳进去,还是想更谨慎一些。 另外也确实陆续有新的合作伙伴进来,让人能从他们个人身上重新看到这个团队变好的希望,虽然这个希望后来都慢慢变为了失望,事实证明,任何个人(特别是新人)都很难搅动一个固若金汤、公司引以为公司之本的格局和形势。而且,心里也确实有很多的不甘,明明能看到每个人都很努力,这件事明明可以做好... AI 带来的转折 工作中有太多负面情绪,怎么办?靠家庭生活来抵消,从生活中获得能量!这仿佛是官方标准答案。 可真的不想把这种负面情绪带回家里,影响家人,也真的因为卷的太累太忙,真的没什么时间和家人深入沟通,参与家庭生活。那段时间,家对我来说基本只是一个上班和加班之外,睡觉的地方,每天在家的时间不会超过 8 个小时。 那答案是什么?是阿伦.艾弗森?哈哈,是 AI !准确说是生成式 AI。 最早关注生成式 AI,并不是 ChatGPT,而是 DALL-E。记得是这张宇航员骑马的图片。 包括后来的 Stable Diffusion 和 Midjourney,这一系列图像生成模型,可以说是我的生成式 AI 启蒙了。 后来有了 ChatGPT,自此 OpenAI 开始迅速进入大众视野,ChatGPT 也几乎一夜之间成为全球最热的 AI App。 我也开始了解 OpenAI、Anthropic、Cohere 等的 AI 模型,当时 Gemini 还叫 Bard,还没有 xAI。Meta 的开源 AI 模型也还没推出,国内也还没有 AI 六小虎和后来的 DeepSeek 为导火索的开源繁荣。 开始对 AI 模型越来越着迷,关注 AI 模型的论文、技术和产品,关注 RAG 和 AI Agent,后来注册了 X(Twitter) 账号后,兴趣被无限的放大了,因为 X 上的 AI 信息密度之高、之及时,让人目不暇接。每天醒来都能看到一堆一堆全新的 AI 信息,我也从最开始只是看,后来尝试评论互动,再后来尝试着发,不断的从信息接收者,变成发布和传播者。 「费曼学习法」是我学习和应用 AI 最主要的方法,我要去主动接收最新最全的 AI 信息,AI + 我一起筛选、识别、解读理解,再用自己的方式写出来发出去,确保自己是理解了的,以输出倒推知识输入。 慢慢的也被关注 AI 的朋友们发现和关注,到现在有 19K 的关注,非常感谢每一位关注的朋友。 正是不断的学习 AI,给了我每天足够的能量,能在工作中消耗。 AI 带来的进一步转折 在自己学习 AI 之后,我很想把这些全球最新的 AI 信息,特别是跟产品研发相关的,跟公司业务相关的,告诉每一个同事,让大家都能从繁忙的工作中接收到最新的 AI 信息,不至于在 AI 时代落后。 我开始在公司各种话题群持续的发 AI 信息,在公司群安利 AI 助手和工作方法,在开发群安利各种 AI 开发工具和 AI 开发实践,跟同事一起推 Github Copilot、Cursor 全面落地,推 Claude Code 试用。 也因为 AI 结识了很多在 AI 方向共同爱好的朋友,一起探讨和研究 AI,研究 AI 产品和工具,研究 AI 技术,再研究 AI 带来的组织变化。从传统产研组织,到 AI 驱动的敏捷,产品 + AI、研发 + AI 带来的全新工作方式,都太有趣了。 我也仿佛在公司找到了新的方向:AI !甚至我希望能有机会:All in AI,做一个跟 AI 完全相关的职位,虽然最终也未能成行,不过对 AI 的追寻,还是非常开心的过程。 突如其来的消息 先补充一个背景:硬件公司虽对软件可能会重视,但确实不擅长,也缺少更全局的规划和坚持。对公司来说,对软件的期待,也是有正反两面的,正面是确实舍得投入,招人、招贵的人;而负面,就是因为期待和关注而动作变形、频繁变动,而且因为看不到正向反馈,期待结束后随之而来的就是失望、不满和要有人对失败负责。 而这个对失败负责的人,就是我。是的,一定要有人负责,否则,这件事怎么翻篇儿,留下来的人怎么卸掉失败的抱负,重新开始呢? 从公司管理成本和核心负责人的稳定上来讲,这也是最好的和可能唯一的选择。再回到我儿子说的「他老板不喜欢他」,我想就是真实的原因了吧。 他老板不喜欢他,不管是他个人,还是他做的事的结果,还是过程,可能都不喜欢。确实他跟那些被老板喜欢的负责人都不一样,至于哪里不一样,不想说了。毕竟我也不想逼着自己变成老板喜欢的样子,工作而已,不至于改变我,让我变成我自己不认可不喜欢的样子。 结案陈词 因为从听到被辞退裁员的消息,到现在,我得到的信息只是:需要有人对软件的失败负责,确实没有更多信息了。 所以我也不想去揣测或消耗自己来寻求答案,确实也没有必要。心里话,我非常感谢公司做出这样的决定,结束这段本就不合适的合作,也倒逼我离开一个「稳定收入」的环境,一定要从新开始想想自己的未来。 从我自己对 20 个月的经历反思,有几个必须吸取的教训: 1. 创始人很关键,自己和创始人的契合度尤其关键; 2. 对公司业务的兴趣,同样重要,真的没办法逼着自己喜欢原本不感兴趣的事; 3. 空降有风险,一定要看清坑在哪里,因为普遍来说,空降必有坑,不管是职位空缺的「坑」,还是导致这个职位空缺的「坑」,都值得深究; 重新再出发,只要看 AI 方向的机会,这是我最近两年和后面若干年最喜欢,也最想投入的方向。 我还会继续在 X、公众号和小红书这些平台去分享,不过目的还是倒推自己学习,吸收知识,同时希望能帮到那些在 AI 行业中,和想进入这个行业的朋友们,大家共同学习讨论。而不是做所谓的「网红」「自媒体」,博取流量、拉群卖课?这当然不会是我的目标。 我的目标,还是做能改变世界的 AI 产品,哪怕只是改变世界上很小一个群体,但要真的产生变化!
meng shao
2个月前
Google 11月最新白皮书「Introduction to Agents」—— 作为「Google x Kaggle 5天 AI 智能体强化课程」的开篇,提供从概念验证到生产级智能体系统的指导框架。 Google 这份最新白皮书,聚焦于 AI 智能体的核心架构、分类、构建实践、生产部署、安全治理以及演化学习,客观分析了生成式 AI 从被动预测向自主问题解决的转变,强调智能体是语言模型在软件中的自然延伸,能够通过循环推理、行动和观察来实现目标。 白皮书的核心观点是:构建智能体并非简单集成语言模型,而是设计一个完整的应用系统,需要平衡灵活性和可靠性。 1. 从预测 AI 到自治智能体 AI 正从被动任务(如翻译或生成图像)转向自主智能体,这些系统能独立规划和执行多步任务,而非依赖人类每步指导。智能体结合语言模型的推理能力与实际行动工具,使其成为“语言模型的自然演化,在软件中变得实用”。白皮书强调,从原型到生产级的挑战在于确保安全性、质量和可靠性。 2. 智能体介绍 智能体定义为模型、工具、编排层和运行服务的组合,通过语言模型循环来实现目标。核心组件包括: · 模型(大脑):核心推理引擎,如通用模型、微调模型或多模态模型,负责处理信息、评估选项和决策。 · 工具(双手):连接外部世界的机制,包括 API、代码函数和数据存储,用于获取实时信息或执行行动。 · 编排层(神经系统):管理操作循环,处理规划、记忆和推理策略(如链式思考或 ReAct)。 · 部署(身体和腿):从本地原型到安全、可扩展服务器的托管,确保通过 UI 或 API 访问。 开发智能体类似于导演角色:设置指导提示、选择工具并提供上下文。白皮书指出,语言模型的灵活性是双刃剑,需要“上下文工程”来引导可靠输出。智能体本质上是上下文窗口的策展者,能适应新情境解决问题。 3. 智能体问题解决过程 智能体通过连续循环实现目标,分为五个步骤: 1. 获取任务:从用户或触发器接收高水平目标。 2. 扫描场景:感知环境,收集上下文(如用户请求、记忆、工具)。 3. 思考:模型分析任务并制定计划。 4. 行动:执行计划的第一步,如调用工具。 5. 观察与迭代:评估结果,更新上下文并循环。 示例:客户支持智能体处理“我的订单#12345在哪里?”时,先规划多步(查找订单、查询跟踪、合成响应),然后逐一执行。这种“思考-行动-观察”循环使智能体处理复杂任务。 4. 智能体系统分类 白皮书将智能体分为五个级别,每级基于前一级扩展: · 0级:核心推理系统:孤立语言模型,仅依赖预训练知识,无法实时交互。 · 1级:连接问题解决者:添加工具,能访问外部数据(如搜索 API)。 · 2级:战略问题解决者:支持复杂规划和上下文工程,能主动管理信息。 · 3级:协作多智能体系统:如人类团队,智能体将其他智能体视为工具,实现分工。 · 4级:自演化系统:识别能力差距,动态创建新工具或智能体。 5. 核心智能体架构:模型、工具和编排 · 模型选择:优先考虑特定任务的推理和工具使用能力,而非通用基准。建议多模型路由(如大模型规划、小模型执行)以优化成本和速度。多模态模型处理图像/音频,或使用专用工具转换数据。 · 工具:分为信息检索(如 RAG、NL2SQL)和行动执行(如 API 调用、代码沙箱)。函数调用通过 OpenAPI 或 MCP 连接,确保可靠交互。包括人类交互工具(如 HITL 确认)。 · 编排层:管理循环,决定何时思考或行动。核心选择包括自治程度(确定性 vs. 动态)、实现方法(无代码 vs. 代码优先,如 ADK)和框架(开放、可观测)。 6. 核心设计选择、多智能体系统和设计模式 · 指令与上下文:使用系统提示注入领域知识和角色(如“友好支持智能体”)。增强上下文包括短期记忆(当前会话)和长期记忆(RAG 查询历史)。 · 多智能体:采用“专家团队”模式,避免单一超级智能体。常见模式:协调器(路由子任务)、顺序(流水线)、迭代精炼(生成-批评循环)和HITL(人类审批)。 · 部署和服务:从本地到云托管(如 Vertex AI Agent Engine 或 Cloud Run)。需处理会话历史、安全日志和合规。 7. Agent Ops:结构化处理不确定性 Agent Ops 是 DevOps 和 MLOps 的演化,针对智能体的随机性。关键实践: · 度量重要指标:如目标完成率、用户满意度、延迟和业务影响。 · 质量评估:使用“语言模型作为评判者”对输出打分,基于黄金数据集。 · 指标驱动开发:自动化测试变化,A/B 部署验证。 · 调试:OpenTelemetry 追踪记录执行路径。 · 人类反馈:将报告转化为新测试用例,关闭循环。 8. 智能体互操作性 · 智能体与人类:通过聊天 UI、计算机使用工具(控制界面)、动态 UI 生成或实时多模态(如 Gemini Live API)交互。 · 智能体与智能体:A2A 协议标准化发现和通信(异步任务)。 · 智能体与金钱:AP2 和 x402 协议处理交易,确保授权和微支付。 9. 安全与扩展 · 单个智能体安全:平衡效用与风险,使用混合防护(确定性护栏 + AI 守卫)。智能体身份作为新主体,使用 SPIFFE 验证。ADK 示例:回调、插件和 Model Armor 检测注入。 · 扩展到企业舰队:处理“智能体蔓延”,通过控制平面(网关 + 注册表)强制政策。关注安全(提示注入、数据泄露)和基础设施(可靠性和成本,如预置吞吐量)。 10. 智能体如何演化和学习 智能体需适应变化,避免“老化”。学习来源:运行经验(日志、HITL 反馈)和外部信号(政策更新)。优化包括上下文工程和工具创建。示例:多智能体工作流学习合规指南。Agent Gym 是前沿:离线模拟平台,使用合成数据和专家咨询优化。 11. 高级智能体示例 · Google Co-Scientist:虚拟研究伙伴,生成并评估假设。通过监督智能体管理专家团队,运行循环改进想法。 · AlphaEvolve:发现算法,结合 Gemini 生成代码和进化评估。人类指导定义问题,确保透明和实用。 12. 结论 智能体将 AI 从工具转变为伙伴,通过模型、工具和编排的集成实现自主性。开发者需从“砖瓦工”转向“导演”,强调评价和治理。这一框架指导构建可靠系统,推动智能体成为团队成员。 Google x Kaggle 5天 AI 智能体强化课程: Google 11月最新白皮书「Introduction to Agents」: