ginobefun
2个月前
刚看了 GitHub 发布的 2025 Octoverse 报告,总结下几个关键要点: 🚀 创纪录的增长和活动 2025 年的主题是「增长」。 开发者总数: GitHub 上的开发者总数已超过 1.8 亿。 新增用户: 过去一年新增了 3600 万开发者(平均每秒超过一位),这是有史以来最快的绝对增长率。 AI 驱动增长: GitHub Copilot 免费版的推出,极大地加速了开发者注册和存储库创建的增长曲线。 活动激增:每月平均合并 4320 万个 PR,同比增长 23%。全年代码 Push 近 10 亿次,同比增长 25.1%。 💻 编程语言格局的重大转变 报告强调了 AI 正在重塑开发者的工具选择。 TypeScript 登顶: 在 2025 年 8 月,TypeScript 首次超越 Python 和 JavaScript,成为 GitHub 上(按贡献者数量计算)使用最多的语言。 原因: 这反映了开发者向类型化语言的转变,这使得 AI 辅助编码在生产环境中更加可靠。此外,几乎所有主流前端框架现在都默认使用 TypeScript。 Python 依旧强劲: Python 仍然是 AI 和数据科学工作负载的主导语言,并且在 AI 相关项目中的使用率大幅增长。 🤖 生成式 AI 成为开发标配 AI 不再是实验性工具,而已成为标准开发流程的一部分。 快速采用: 80% 的新开发者在注册 GitHub 的第一周内就使用了 Copilot。 项目集成: 超过 110 万个公共存储库现在使用了大型语言模型SDK,同比增长 178%。 AI 智能体登场: 报告明确指出 "Agents are here"(智能体时代已来)。从 2025 年 5 月到 9 月,Copilot 编程智能体创建了超过 100 万个拉取请求。 开源中的 AI: 贡献者排名前 10 的开源项目中,有 6 个是 AI 相关的(例如 vllm, ollama, huggingface/transformers)。 🌏 开发者社区的全球化 开发者群体的增长是全球性的,尤其是在新兴市场。 印度的崛起: 印度今年新增了 520 万开发者(占所有新用户的 14%),成为新开发者的最大来源国。 未来预测: 报告预测,到 2030 年,印度将拥有 5750 万开发者,成为 GitHub 上最大的开发者社区。 全球贡献: 印度现在拥有世界上最大的公共和开源贡献者基础(按人数计算),尽管美国在贡献总量上仍然领先。 📖 开源生态:AI 主导与治理滞后 开源活动达到了创纪录的水平,但面临新的挑战。 AI 项目激增: AI 基础设施项目(如 vllm, ollama)在增长最快和贡献者最多的项目中占据主导地位。 治理跟不上速度: 尽管活动激增,但项目的治理文档(如贡献指南和行为准则)的采用率仍然很低。只有 5.5% 的项目有贡献者指南,2% 有行为准则。
ginobefun
2个月前
#BestBlogs 万字长文:重构软件工程迷思,搞懂需求与产品思维 | 腾讯云开发者 万字长文深入剖析软件工程中需求与产品思维的本质,厘清概念误区,并探讨了 ToC 与 ToB 产品方法论的差异。 摘要: 文章旨在重构软件工程理论体系,聚焦需求分析、建模与架构,特别是需求与产品思维。作者指出软件工程缺乏标准化表达导致共识难以建立,并提出技术人员需具备用户、模型、架构“三个脑袋”。文章深入定义“需求”为认知,是“人+场景”的结合,强调产品是针对用户需求的解决方案而非需求本身。它探讨了用户价值的理性与感性部分、比较性以及“伪需求”的本质。此外,文章详细对比了 ToC 与 ToB 产品方法论在价值、人性与行业知识上的核心差异,并总结了软件工程的古典学派与敏捷流派。最后,明确了需求分析的产出物和技术人员在需求阶段的角色定位。 主要内容: 1. 软件工程缺乏标准化表达导致共识难以建立 -- 文章指出软件工程各阶段产出物形式多样化,自然语言的二义性与认知差异使得产品、开发、测试等团队对需求的理解存在巨大偏差,影响协作效率。 2. “需求”本质是认知,产品是解决方案 -- 作者将需求定义为对现实世界的理解,是“人+场景”的组合,而产品是满足用户需求的“供给”或“解决方案”,区分二者有助于避免开发失焦。 3. 用户价值具有理性与感性两部分,且是比较性的 -- 用户价值不仅包含便宜、方便等理性因素,更涉及酷、爽、美等感性体验,并且总是通过与现有解决方案的对比来衡量,新产品需提供超越旧方案的新价值。 4. ToC 与 ToB 产品方法论存在根本性差异 -- ToC 产品更注重用户体验与人性洞察,而 ToB 产品则更强调商业价值与深厚的行业知识,这两种模式在思维链条和实践上各有侧重。 5. 技术人员在需求阶段的角色定位至关重要 -- 技术人员应积极参与需求讨论,挑战产品方案的合理性与技术可行性,弥补逻辑漏洞,甚至在偏技术的中台/平台型产品中担任技术产品经理,以确保产品质量和成功落地。 文章链接:
ginobefun
2个月前
#BestBlogs 什么是智能体? | ByteByteGo Newsletter 本文定义了 AI 智能体,并将其与传统程序区分。文章还根据复杂程度对智能体进行了分类。 摘要: 本文概述了 AI 智能体。AI 智能体是一种能够感知环境、做出决策并采取行动以实现特定目标的软件系统,具有一定的独立性。它与被动的、遵循指令的传统软件不同。核心操作机制“智能体循环”(感知、思考、行动、观察、重复)得到解释,强调了大型语言模型如何充当大脑,以及智能体如何利用各种工具(例如,网络搜索、API)来扩展其能力并适应动态情况。 本文还将 AI 智能体分为一个复杂程度的谱系:简单反射、基于模型、基于目标、基于效用和学习型智能体,并通过清晰的示例和图表对每种智能体进行了说明。最后,它强调了 AI 智能体对软件开发的变革性影响,即转向面向目标的任务完成,而不是明确的逐步指令。 主要内容: 1. AI 智能体通过其自主性、反应性、积极性和社交能力来实现目标,这使得它们与传统软件有根本的不同。 -- 与被动的传统软件不同,AI 智能体可以独立地感知、决策和行动,利用大型语言模型作为它们的“大脑”来理解上下文,并为复杂的、多步骤的任务确定最佳行动方案。 2. “智能体循环”(感知、思考、行动、观察、重复)是使 AI 智能体能够分解复杂任务并适应的连续循环。 -- 这种迭代过程使智能体能够动态地调整其策略,利用各种工具(例如,网络搜索、API),并通过观察结果和改进其方法以达到期望的结果来处理意外情况。 3. AI 智能体的复杂程度各不相同,从简单的反射智能体到随着时间推移而改进的先进学习型智能体。 -- 理解这些不同的类型——简单反射、基于模型、基于目标、基于效用和学习型智能体——有助于为各种任务选择最合适的智能体,从基本的条件-动作规则到复杂的、自我改进的系统。
ginobefun
2个月前
《智能体设计模式》第六章「规划模式」完成翻译,目前已翻译章节: 00 - 前言部分 01 - 第一章:提示链模式 02 - 第二章:路由模式 03 - 第三章:并行模式 04 - 第四章:反思模式 05 - 第五章:工具使用模式 06 - 第六章:规划模式 规划模式让智能体具备前瞻性思维能力,能够将复杂任务拆解为更小且可管理的步骤,并制定实现预期结果的策略。通过规划能力,智能体不再只是对眼前输入作出反应,而是能够自主规划从初始状态到目标状态的完整路径。这里为大家梳理几个关键要点: 1. 核心理念:从被动响应到主动规划 规划模式的核心在于建立「理解目标 → 制定计划 → 执行步骤 → 灵活调整」的智能流程,让智能体具备战略性、目标导向的执行能力。 - 传统模式的局限:基础智能体只能对眼前输入作出反应,缺乏处理复杂多步骤任务的能力,无法将高层次目标拆解为可执行的子任务。 - 规划模式的价值:智能体能够接收高层次目标并自主拆解为有序的执行步骤,在遇到阻碍时灵活调整路线,从而有效处理包含多个步骤和相互依赖的复杂任务。 2. 规划的关键特征 规划模式通过以下特征实现智能化的任务执行: - 目标驱动:接收高层次的目标声明(做什么)而非具体指令(如何做」,由智能体自主决定实现路径。 - 即时生成:计划不是预先存在的,而是根据当前状况和目标要求即时生成的。 - 灵活应变:初步计划只是出发点,智能体能够接纳新信息并在遇到阻碍时动态调整策略。 - 结构化分解:将复杂目标拆解为一系列更小、可执行的步骤或子目标,按逻辑顺序处理依赖关系。 3. 典型应用场景 规划模式在四大领域展现出核心价值: - 流程自动化:编排复杂工作流,如新员工入职流程,包括创建账户、分配培训、部门协调等有序子任务。 - 机器人与自主导航:进行状态空间遍历,生成从起始状态到目标状态的最优路径,同时遵守环境约束。 - 结构化信息整合:生成研究报告等复杂输出,规划包含信息收集、数据归纳、内容结构化、迭代打磨等阶段。 - 多步骤问题解决:制定并对系统化流程进行诊断、实施解决方案,并在必要时升级处理。 4. 实现框架与特点 - CrewAI:通过定义明确的智能体角色和任务,支持先规划后执行的工作流,适合结构化的多步骤任务。 - Google 深度研究:利用多步骤动态迭代流程,把用户提示拆解为研究计划,循环执行搜索与分析,生成带引用的结构化报告。 - OpenAI 深度研究接口:提供编程化控制能力,支持 MCP 协议连接私有知识库,展示完整的中间步骤(推理、搜索、代码执行)。 5. 使用时机与权衡 当任务复杂度超出单一操作范围时,应当使用规划模式,但需要权衡灵活性与可预测性: - 适用场景:任务需要多个相互依赖的步骤才能完成;「如何做」的方案需要探索而非已经明确;需要自动化处理复杂的工作流程;需要生成全面、综合的结果。 - 权衡考量:当问题的解决方法已经清楚且可重复时,固定流程比动态规划更有效;规划增加灵活性的同时也引入了不确定性;需要在自主性和可预测性之间找到平衡。 - 核心价值:将智能体从简单的被动响应者提升为战略性、目标导向的执行者,能够管理复杂流程并产出全面综合的结果。 点击项目链接 可双语对照阅读,跟踪最新翻译进展,也欢迎加入交流群一起阅读讨论、反馈问题或随个 Star ~
ginobefun
2个月前
刚集中看了下 DeepSeek-OCR 模型的论文和报导,发现这个模型名字虽然叫 OCR,但它真正目标其实是想解决当前模型在处理长文本时面临的算力噩梦。传统 AI 处理文本时,计算量会随文本长度平方级增长,成本极高。 DeepSeek 的思路是跳出这个困局,不再让 AI 逐字「阅读」一维文本,而是让它「观看」被渲染成二维图像的文本。这就是他们提出的「上下文光学压缩」范式,利用一图胜千言的原理,将海量文本压缩成极少量的视觉 Token。 模型的核心是编码器 DeepEncoder,它采用「先局部、再压缩、后全局」的三阶段设计:先用窗口注意力高效处理高分辨率图像的局部细节,再通过一个 16 倍卷积压缩器大幅减少 Token 数量,最后用全局注意力来理解这些被浓缩后的精华 Token。解码器则是一个 3B MoE 模型,负责从这些视觉 Token 中重建出原始文字,从而实现了一种全新的文本压缩范式。 这个方法的效率极为惊人。在 10 倍压缩率下,解码准确率高达 97%。在 OmniDocBench 基准上,它使用不到 800 个视觉 Token,就大幅超越了平均使用近 7000 个 Token 的 MinerU2.0,而一块 A100 显卡每天就能处理超过 20 万页数据。 因此,这不仅是一个 SOTA 级别的 OCR 工具,还被认为是「AI 的 JPEG 时刻」,为 AI 的输入和记忆架构打开了新路径。连 Karpathy 都表示,这也许证明了像素是比文本更好的输入方式,带来了更短的上下文窗口和更高的效率。
ginobefun
3个月前
本周 BestBlogs 精选内容已邮件推送,欢迎阅读 ----------------------------- 🚀 模型与研究亮点: ✨ Anthropic 发布了 Claude Haiku 4.5 ,该小模型以其接近顶尖的编码性能、显著的成本效益和更快的处理速度,重新定义了高智能 AI 的可及性与效率。 🎬 谷歌 DeepMind 推出 Veo 3.1 模型,通过增强真实感、提示遵循度和视听质量,并集成生成音频和高级编辑功能,革新了 AI 视频创作工具 Flow 。 📄 百度开源了自研多模态文档解析模型 PaddleOCR-VL ,其 0.9B 参数量在 OCR 四大核心能力上全面刷新 SOTA,打破了“大模型才有好效果”的迷思。 💡 阿里巴巴开源了 Logics-Parsing 模型,基于 Qwen2.5-VL 架构,利用布局为中心的强化学习,有效解决了复杂 PDF 文档的端到端结构化处理难题。 💻 大语言模型结构化输出成为构建可靠 AI 应用的核心,文章深入解析了模式引导生成、约束解码、SFT 及 JSON Mode 等六大关键技术路径。 🤔 深度分析当前大语言模型 LLM 的过度宣传与“p^n 困境”,强调 AI 缺乏真实智能,并提出构建人机协同系统的三大原则以应对其固有局限性。 🛠️ 开发与工具精粹: 🔗 LangChain 与 Manus 深度探讨 AI 智能体上下文工程,提出了上下文卸载、缩减、检索、隔离等策略,并通过 Manus 的“分层行动空间”优化工具调用。 📝 规约驱动开发 (SDD) 作为 AI 辅助编码的新范式被详细解析,其规约优先、规约锚定、规约即源的理念及 Kiro 、Spec-kit 、Tessl 等工具成为关注焦点。 ⚙️ 特斯拉前 AI 总监 Andrej Karpathy 开源了 nanochat 项目,以约 8000 行 Rust 代码和 100 美元的成本,从零开始构建了一个简易版 ChatGPT ,并提供了详细教程。 🧑‍🏫 吴恩达推出 Agentic AI 新课程,将智能体工作流开发沉淀为反思、工具、规划和协作四大设计模式,实战证明能让 GPT-3.5 在特定任务中超越 GPT-4 。 Go 腾讯发布 tRPC-Agent-Go 框架,旨在填补 Go 语言在自主多 Agent 协作框架领域的空白,集成了 LLM、智能规划、工具调用等能力。 🔄 《智能体设计模式》深度解析了 AI 智能体的反思模式,通过“生产者-评审者”架构实现自我评估和迭代改进,显著提升任务输出质量,并提供实战代码示例。 💡 产品与设计洞见: 🔧 Anthropic 推出 Claude 技能 功能,用户可将专业知识与指令打包成技能包,定制 Claude 的工作流程,实现可组合、可移植、高效且强大的 AI 任务执行。 🔍 谷歌搜索产品副总裁 Robby Stein 揭示了谷歌 AI 转型的内幕,强调 Gemini 、AI 概览和 AI 模式如何通过更自然的语言和多模态输入,扩展而非取代传统搜索。 🎨 Figma CEO Dylan Field 认为在 AI 时代,设计、工艺和毫不妥协的质量将成为初创企业新的竞争优势,强调产品开发中培养 品味 的重要性。 🏢 硅谷内部讨论会揭示,AI Agent 部署失败的 95%并非模型智能不足,而是上下文工程、安全性、记忆设计等支撑体系缺失,强调治理与信任及多模型推理。 🚀 Slack 首席产品官 Rob Seaman 提出在 AI 时代,传统路线图已失效,应围绕客户与业务结果规划,并通过精简团队快速原型设计,加速产品开发和创新。 📈 Lovable 增长负责人 Elena Verna 强调 AI 正在瓦解传统分发渠道,产品增长需从漏斗模型转向增长飞轮,构建数据护城河并利用产品作为营销渠道。 📰 资讯与报告前瞻: ⚡ Nathan Labenz 驳斥 AI 发展减速论,强调 AI 在推理能力、上下文扩展及作为“协同科学家”方面的持续进步,并预见多模态 AI 的关键作用。 🖥️ 英伟达发布个人 AI 超级计算机 DGX Spark ,将数据中心级 DGX 架构浓缩至桌面,售价 3999 美元起,旨在实现本地高效 AI 开发和推理,并支持 OpenAI API 服务。 🤝 美图公司吴欣鸿分享在 AI 时代下的组织进化心得,实践“反惯性工作流”,提出“AI 原生组织”模式,倡导“一个人即一支团队”理念,并普及 AI 编码。 💰 《State of AI Report 2025》指出 2025 年是 AI 业务追平炒作的“推理之年”,头部 AI 公司年化收入已达百亿美元,AI 编程、音视频生成等商业领域取得显著成功。 ✍️ 语言学家娜奥米·S·巴伦深刻剖析 AI 时代人类写作的核心价值与挑战,强调写作是思考与情感表达的独特方式,呼吁“增强而非自动化”并划清人机协作界限。 ⚖️ 北京大学论文揭示 AI 在加速知识产出的同时,可能加剧内容和思想同质化,产生“创造性伤痕”效应,警示 AI 带来的“资历偏向”重塑劳动力市场。 希望本周的精选文章推荐能帮助您快速了解 AI 领域的最新进展!期待与您下周再见!
ginobefun
3个月前
人生的幸福感常被描述为一条 U 形曲线,中年是那个无可回避的谷底。这不仅是外部压力累积的结果,其本质更是一场深刻的内部危机:我们曾经赖以生存的思维模式与行为习惯,在不知不觉中变得僵化,失去了年轻时的灵活与开放。我们感到力不从心、沮丧懈怠,正是因为内心世界变得封闭,失去了成长的活力。 中年最大的危险,不是打击和意外,而是我们默许自己混日子。曾国藩的人生经历则揭示了另一条道路:所有的低谷,都可以是新的爆发点。他所践行的「突围」,并非是向外冲杀,而是一场向内的自我对话与人生再造。这场突围包含四个关键步骤,层层递进,直至核心。 一、打开心态:从「我是对的」到「也许我错了」 这不仅是谦虚,而是主动打破过往经验的牢笼。人到中年,最容易被自己的成功经验所困,认为自己手握真理,把所有问题都归咎于他人。曾国藩也曾如此,他用固有的理学标准去衡量世界,结果处处碰壁,加深了对他人的成见和对自我的执着。 真正的突围,始于放下「我永远对」的执念,敢于承认自己赖以成功的旧地图,在新的人生阶段可能已经失灵。只有时刻提醒自己「也许我是错的」,保持一颗开放和有弹性的心,我们才能为自己封闭的内心重新打开一扇窗,让新的空气和阳光进来,为真正的反思和成长创造可能。 二、看到他人:从「以我为尊」到「和光同尘」 这不仅是学会欣赏,而是摧毁自我中心的幻觉。当曾国藩被迫远离官场,以局外人的身份审视过往时,他才发现自己曾经鄙视的同僚并非一无是处,许多矛盾的根源恰恰是自己的骄傲自负。 人到中年,必须完成一次视角的转换:从将世界看作是自己表演的舞台,转为将自己看作是复杂社会生态中的一员。当我们不再以自己为唯一的坐标,才能客观地看到他人的长处和自己的局限。主动「挫其锐,解其纷」,磨平自己的棱角,把自己融入集体,才能真正减少外界的阻力,获得更广阔的空间。 三、当下不乱:从「思前想后」到「未来不迎,过往不恋」 这不仅是专注,而是停止精神内耗的源头。我们的能量,常常在对过去的悔恨和对未来的焦虑中被白白消耗,这正是行动迟缓、效率低下的根源。我们总被想象中的困难吓倒,却忘了唯一能有所作为的,只有当下这一刻。 曾国藩在绝境中「当下不杂」的定力,正是将所有能量从时间的虚无两端,强行拉回到「现在」这个实点的功夫。这种能量管理比时间管理更重要。把宏大的目标简化为眼前具体的一步,然后完成它。这是斩断内耗、重获行动主导权的唯一途径。 四、积极自救:从「被动承受」到「主动破局」 这不仅是乐观,而是一种身份的切换。面对困境,人最容易陷入受害者的无力感中。曾国藩一生败仗无数,但他最强大的能力,就是无论局势多糟,总能第一时间从一个被动的承受者,转变为一个主动的破局者。 他思考的永远不是「我为什么这么不幸」,而是「在当前局面下,我还能做什么来反败为胜,哪怕只是减少损失?」 这个问题本身,就是拒绝听天由命、重夺主动权的宣言。在任何时候,都不要放弃自救的权利,因为这才是走出困境的第一步。 中年,是我们第一次清晰地感受到,我们无法靠过去的惯性跑赢时间。真正的突围,是放弃与时间对抗的幻想,转而寻求一种新的共存方式,和时间和解。我们不再执着于「更高、更快、更强」,而是开始追求一种更有火候的境界,更有质量的人生。
ginobefun
3个月前
最近听了 ElevenLabs 联合创始人兼 CEO Mati Staniszewski 的一次访谈,让我对 AI 时代的创业机会有了全新的思考。Mati 来自波兰,他创业的初衷非常有趣,源于他从小就无法忍受波兰引进的外国电影——所有角色,无论男女,都由同一个声音用平淡无奇的语调配音。他最初的宏大愿景,就是用 AI 彻底改变这个糟糕的配音行业。 让我感到意外的是,他们放弃了这个性感的梦想,并因此获得了成功。当他们带着初步的配音产品去接触潜在用户时,得到的反馈出奇地一致。一位用户告诉他:“你的想法很有趣,但实际上,如果你能先帮我解决自己声音的问题……那就好太多了。” 他们很快发现,对于内容创作者来说,最迫切、最高频的痛点,并非颠覆一个行业,而是解决一个极其具体而无聊的需求:人们只是想在录制后,能轻松地修复或重录某一句台词。 这个发现成了公司的转折点。他们果断地从宏伟蓝图转向了解决这个微小但真实的痛点,并因此赢得了第一批忠实用户和现金流,为后续发展奠定了基础。这背后是一种深刻的产品哲学:伟大的创新,往往始于解决一个具体而高频的麻烦,而不是一开始就去追逐一个遥远的星辰大海。 这种务实的思考,也贯穿在他给普通创业者的建议中。当被问及普通人如何利用 AI 月入一万美元时,他的回答不是去开发什么新算法,而是建议大家:拿着现成的语音代理方案,去本地的牙医诊所,帮助他们实现预约自动化。 这个建议之所以深刻,是因为它点破了一个被大多数人忽视的真相:在技术圈被视为常识的工具,对于圈外的广大传统行业来说,依然是遥不可及的未来科技。Mati 强调,这些诊所的老板们根本不知道这已经成为可能,而部署这些方案你甚至不需要成为一个程序员。当前 AI 领域最大的机会,或许并非创造更强的技术,而是将现有技术「翻译」和「部署」到真实世界的商业场景中。填补技术与需求之间的认知鸿沟,就是普通人最实际的黄金机会。
ginobefun
3个月前
《智能体设计模式》中文翻译计划启动 接下来的一周,我将通过 AI 初次翻译 → AI 交叉评审 → 人工精读优化的方式来翻译这本书,所有翻译内容将持续更新到开源项目: 本书由 Antonio Gulli 撰写、谷歌 Cloud AI 副总裁 Saurabh Tiwary 作序、高盛 CIO Marco Argenti 鼎力推荐,系统性地提炼出 21 个核心智能体设计模式,涵盖从提示链、工具使用到多智能体协作、自我修正等关键技术。更难得的是,本书的所有版税都将捐赠给救助儿童会,这是一份真正属于开发者社区的公益之作。 前言部分精华概览 今天完成了前言部分的人工校对,完成的翻译内容我已发布到公众号 ,这里为大家梳理几个关键要点: 1. 来自行业领袖的深度洞见 谷歌 Cloud AI 副总裁 Saurabh Tiwary 在序言中指出,我们正在从构建「仅能处理信息的模型」,迈向创造「能够推理、规划和行动的智能系统」。他将智能体开发比作在画布上创作,而设计模式正是这块画布上的基本笔触。 高盛 CIO Marco Argenti 则以「权力与责任」为题,分享了他对智能体技术的深刻思考。他坦言自己最初是怀疑的——早期模型「被优化的目标是追求可信度,而非正确性」。但推理模型的出现带来了质的飞跃,他第一次试用智能体编程工具时,「感受到了那种久违的、如魔法般的火花」。 更重要的是,Marco 强调了专业精神和企业文化的重要性。在金融这样高风险的领域,智能体的失误代价巨大。他提出的三大原则值得所有开发者铭记: - 为使命而构建:确保每个智能体都始于对客户问题的清晰理解 - 洞见未来,防患未然:预见失败模式,设计具有韧性的系统 - 启迪信任,不负所托:对方法保持透明,对结果负责 2. 什么是智能体系统? 书中给出了清晰的定义:智能体系统是一种能够感知环境、根据目标做出决策、并自主执行行动的计算实体。 不同于遵循固定脚本的传统软件,智能体系统具备以下核心特征: - 自主性:无需持续人工监督即可行动 - 主动性:能主动发起行动以实现目标 - 反应性:能有效应对环境变化 - 工具使用:与外部 API、数据库或服务交互 - 记忆:在多次交互中保留信息 - 通信:与用户、系统或其他智能体交互 3. 智能体的演进层级 书中提出了一个实用的智能体分级框架: - 0 级:核心推理引擎 - 大语言模型本身,仅基于预训练知识响应,无法感知当前事件。 - 1 级:连接外部的问题解决者 - 能够使用外部工具来解决超出预训练知识范围的问题。这是 RAG 技术的典型应用场景。 - 2 级:战略性问题解决者 - 具备战略规划、主动协助和自我提升能力。核心赋能技能是提示工程和上下文工程。它能够战略性地选择、打包和管理最相关信息,确保高效决策。 - 3 级:协作型多智能体系统 - 这是一次重大范式转变:不再追求单一全能的超级智能体,而是转向复杂的、协作式的多智能体系统。就像人类组织一样,由不同专家组成的团队协同工作,通过劳动分工和协调产生强大的协同效应。 4. 智能体的未来:五大假设 书中对智能体的未来提出了五个极具前瞻性的假设: 假设 1:通用智能体的崛起 - 从狭隘专家演变为能高可靠性管理复杂、模糊、长期目标的通用型选手。替代路径是「乐高式」的小型语言模型组合。 假设 2:深度个性化与主动发现目标 - 智能体将成为深度个性化的主动合作伙伴,不仅响应指令,更能预测需求,主动发现和支持用户的潜在目标。 假设 3:具身化与物理世界交互 - 通过与机器人技术结合,智能体将挣脱数字束缚,在物理世界中运作,弥合数字智能与物理行动的鸿沟。 假设 4:智能体驱动的经济 - 高度自主的智能体将成为经济中的积极参与者,创造新的市场和商业模式,形成超高效率的「智能体经济」。 假设 5:目标驱动的、可演化的多智能体系统 - 系统能基于声明性目标自主运作,动态修改多智能体工作团队的拓扑结构,在架构层面和指令层面实现真正的自我演化。