#智能体

2天前

这个智能体为什么这么厉害？玩原神玩的 Lumine：通过原神游戏数据训练的智能体先用1731小时的人类游戏数据预训练，学会根据游戏画面输出键鼠操作；再用200小时的指令跟随数据，将语言和操作对应；最后用15小时的推理数据，让模型具备灵活思考能力。能独立完成原神主线任务，且具有泛化能力，也能玩崩铁、鸣潮等游戏，会战斗、会解谜、会操作UI界面。项目地址：

#原神 #智能体 #游戏AI #Lumine #游戏数据训练

素人极客-Amateur Geek

5天前

只提智能体，不提提示词，效率熬不到结果。没有廉价的智能，只有廉价的产品。所以当下的成长就两件事：用准确的AI提示让自己学到不知道的。用知道的成为未来人生的变量。

#智能体 #AI提示 #效率 #学习 #未来

1周前

我用 AI 提示词精准复刻了一个人的意识形态和哲学立场可以让这个智能体无论怎么输出，看起来都像是这个人写出来的文字然后我就想让这个智能体再写一篇文章，来讲一下自己的意识形态是什么这个智能体无论如何都写不出来这个时候我突然意识到，这个智能体所去模仿的那个人，以他的学识和阅历，是完全不可能搞清楚自己的意识形态的就是因为写不出来，才代表真的像

#AI #意识形态 #哲学立场 #智能体 #复刻

2周前

最近在选择自己开发的 AI 工具栈，有一个感觉：Claude Code/Codex 等 AI Agent 的整体规划能力、架构能力都很不错，不过用来做前端开发，总感觉有些地方不太用得上力，比如设计团队的 Figma 设计稿还原，比如基于前端组件库和 CSS 样式来新增和修改产品设计。可能把 Spec 和 Plan、Skills、Agents md 等编写到位，多次迭代后，也能达到满意的结果。不过感觉有些大炮打蚊子了，token 成本也是没必要的高！最近几天试用 Kombai 这个前端专精智能体，在前端开发方面值得试试，它通过领域优化（如内置 30+ 库 RAG 和任务特定规划），自研的 Figma 设计稿引擎等，直接生成高保真输出——少编译错、代码审查通过率高，还附带浏览器预览。用户能控制上下文，确保适配你的栈。基准测试（200+ 任务）显示，它在 UI 实现和错误率上超通用智能体 2 倍左右，特别适合中大型组件。试了几个项目，确实高效，但也需熟悉其规划模式。

#AI工具栈 #前端开发 #Kombai #Figma设计稿 #智能体

2周前

画了一个简单的专利写作智能体的架构，供参考。用Claude Code 等实现也很简单，就用 Agent-SubAgent，写提示词，提示词可以让 Claude 帮你写。

Claude Skills系统发布引发AI行业新变革· 52 条信息

#专利写作 #智能体 #Claude Code #Agent-SubAgent #提示词

3周前

《智能体设计模式》第六章「规划模式」完成翻译，目前已翻译章节： 00 - 前言部分 01 - 第一章：提示链模式 02 - 第二章：路由模式 03 - 第三章：并行模式 04 - 第四章：反思模式 05 - 第五章：工具使用模式 06 - 第六章：规划模式规划模式让智能体具备前瞻性思维能力，能够将复杂任务拆解为更小且可管理的步骤，并制定实现预期结果的策略。通过规划能力，智能体不再只是对眼前输入作出反应，而是能够自主规划从初始状态到目标状态的完整路径。这里为大家梳理几个关键要点： 1. 核心理念：从被动响应到主动规划规划模式的核心在于建立「理解目标 → 制定计划 → 执行步骤 → 灵活调整」的智能流程，让智能体具备战略性、目标导向的执行能力。 - 传统模式的局限：基础智能体只能对眼前输入作出反应，缺乏处理复杂多步骤任务的能力，无法将高层次目标拆解为可执行的子任务。 - 规划模式的价值：智能体能够接收高层次目标并自主拆解为有序的执行步骤，在遇到阻碍时灵活调整路线，从而有效处理包含多个步骤和相互依赖的复杂任务。 2. 规划的关键特征规划模式通过以下特征实现智能化的任务执行： - 目标驱动：接收高层次的目标声明（做什么）而非具体指令（如何做」，由智能体自主决定实现路径。 - 即时生成：计划不是预先存在的，而是根据当前状况和目标要求即时生成的。 - 灵活应变：初步计划只是出发点，智能体能够接纳新信息并在遇到阻碍时动态调整策略。 - 结构化分解：将复杂目标拆解为一系列更小、可执行的步骤或子目标，按逻辑顺序处理依赖关系。 3. 典型应用场景规划模式在四大领域展现出核心价值： - 流程自动化：编排复杂工作流，如新员工入职流程，包括创建账户、分配培训、部门协调等有序子任务。 - 机器人与自主导航：进行状态空间遍历，生成从起始状态到目标状态的最优路径，同时遵守环境约束。 - 结构化信息整合：生成研究报告等复杂输出，规划包含信息收集、数据归纳、内容结构化、迭代打磨等阶段。 - 多步骤问题解决：制定并对系统化流程进行诊断、实施解决方案，并在必要时升级处理。 4. 实现框架与特点 - CrewAI：通过定义明确的智能体角色和任务，支持先规划后执行的工作流，适合结构化的多步骤任务。 - Google 深度研究：利用多步骤动态迭代流程，把用户提示拆解为研究计划，循环执行搜索与分析，生成带引用的结构化报告。 - OpenAI 深度研究接口：提供编程化控制能力，支持 MCP 协议连接私有知识库，展示完整的中间步骤（推理、搜索、代码执行）。 5. 使用时机与权衡当任务复杂度超出单一操作范围时，应当使用规划模式，但需要权衡灵活性与可预测性： - 适用场景：任务需要多个相互依赖的步骤才能完成；「如何做」的方案需要探索而非已经明确；需要自动化处理复杂的工作流程；需要生成全面、综合的结果。 - 权衡考量：当问题的解决方法已经清楚且可重复时，固定流程比动态规划更有效；规划增加灵活性的同时也引入了不确定性；需要在自主性和可预测性之间找到平衡。 - 核心价值：将智能体从简单的被动响应者提升为战略性、目标导向的执行者，能够管理复杂流程并产出全面综合的结果。点击项目链接可双语对照阅读，跟踪最新翻译进展，也欢迎加入交流群一起阅读讨论、反馈问题或随个 Star ~

#智能体 #规划模式 #任务拆解 #自主规划 #深度研究

3周前

DeepAnalyze：数据分析智能体能自主完成一系列数据任务，包括：准备、分析、建模、可视化、生成报告。 Github：

谷歌Deep Research：AI操作系统雏形？· 127 条信息

#DeepAnalyze #数据分析 #智能体 #GitHub #自动化

4周前

最近接触AI时，我常被“Agent”和“Assistant”这两个词绕进去。后来想明白了，这就像我们身边的两种工具：一种是“助手”，一种是“能自己干活的智能体”。先说说Assistant，它更像我们日常用的语音助手，比如手机里的Siri、小爱同学。你问它“今天天气怎么样”，它就直接回答；你说“设置个明天早上8点的闹钟”，它就照做。这种工具的核心是“被动响应”——必须等你发出明确指令，它才会行动，而且做的事情都是提前设定好的，不会自己“多想一步”。就像一个熟练的助理，你把任务写清楚，它就按流程完成，不会主动改变计划。而Agent就不一样了。它更像一个“能自己规划的小团队”。比如你让它“帮我买一杯咖啡”，它不会直接打开外卖软件下单，而是会先拆解问题：需要确定附近有哪些咖啡店、哪家有优惠、当前配送时间够不够、钱够不够付……然后一步步调用工具去实现。它有自己的“思考能力”，能根据实际情况调整策略，甚至在遇到突发问题时（比如某家店突然关门），还能临时换一家。这种自主性让它能处理更复杂的事情，就像一个有经验的项目负责人，能把大目标拆成小步骤，自己推进完成。我总结了一下两者的关键区别：Assistant是“执行者”，Agent是“决策者+执行者”。打个比方，对安全团队来说（这是我最近关注的领域），P5级别的安全工程师可能就像Assistant，需要别人明确告诉他“检查服务器漏洞”“处理某个安全事件”，他才动手；而P6级别的工程师就开始接近Agent了，能自己拆解问题，比如从“防范勒索病毒”这个大目标，分解出“加固终端防护”“检查备份策略”“培训员工安全意识”等多个小任务，并且能根据实际情况调整优先级。再往远想，2023年AI技术已经给智能体装上了“大脑”（推理能力）、“眼睛”（视觉识别）、“耳朵”（语音处理）和“记忆力”（数据存储）。2024年，大家可能会看到它们长出“身体”——也就是“具身能力”，比如能自己操作设备、在真实环境中移动。至于更高级的P7级安全工程师，可能需要智能体具备“自我进化”能力：比如自己发现工作流程中的漏洞，主动优化方法，甚至在没有人工指导的情况下，通过学习新的攻击手段来提升防护能力。这种能力现在看还比较遥远，但技术发展的速度，说不定哪天就实现了。说到底，理解这两个概念，其实是在看AI从“被动服务”到“主动创造”的进化。就像从用计算器到用能自己解题的数学软件，区别不在于“算得快”，而在于“能不能自己搞懂怎么算”。

#AI Agent #AI assistant #智能体 #自主决策 #安全工程师

YL (Yucheng Liu)

1个月前

在AI领域，未来几年唯一重要的事情可能就是「上下文工程」(Context Engineering)。如何从嘈杂、非结构化的真实世界对话中精准提取、管理和排序上下文，再喂给LLM，是决定AI智能体表现的关键。这远比卷模型本身更有价值。

#上下文工程 #AI领域 #LLM #智能体 #非结构化数据

1个月前

《智能体设计模式》谷歌工程师开源的Agent设计书，内含各种模式的流程图、讲解、代码，应该是目前最值得读的Agent书籍。电子书地址：

#智能体 #Agent设计 #谷歌工程师 #开源 #电子书

1个月前

《智能体设计模式》中文翻译计划启动接下来的一周，我将通过 AI 初次翻译 → AI 交叉评审 → 人工精读优化的方式来翻译这本书，所有翻译内容将持续更新到开源项目：本书由 Antonio Gulli 撰写、谷歌 Cloud AI 副总裁 Saurabh Tiwary 作序、高盛 CIO Marco Argenti 鼎力推荐，系统性地提炼出 21 个核心智能体设计模式，涵盖从提示链、工具使用到多智能体协作、自我修正等关键技术。更难得的是，本书的所有版税都将捐赠给救助儿童会，这是一份真正属于开发者社区的公益之作。前言部分精华概览今天完成了前言部分的人工校对，完成的翻译内容我已发布到公众号，这里为大家梳理几个关键要点： 1. 来自行业领袖的深度洞见谷歌 Cloud AI 副总裁 Saurabh Tiwary 在序言中指出，我们正在从构建「仅能处理信息的模型」，迈向创造「能够推理、规划和行动的智能系统」。他将智能体开发比作在画布上创作，而设计模式正是这块画布上的基本笔触。高盛 CIO Marco Argenti 则以「权力与责任」为题，分享了他对智能体技术的深刻思考。他坦言自己最初是怀疑的——早期模型「被优化的目标是追求可信度，而非正确性」。但推理模型的出现带来了质的飞跃，他第一次试用智能体编程工具时，「感受到了那种久违的、如魔法般的火花」。更重要的是，Marco 强调了专业精神和企业文化的重要性。在金融这样高风险的领域，智能体的失误代价巨大。他提出的三大原则值得所有开发者铭记： - 为使命而构建：确保每个智能体都始于对客户问题的清晰理解 - 洞见未来，防患未然：预见失败模式，设计具有韧性的系统 - 启迪信任，不负所托：对方法保持透明，对结果负责 2. 什么是智能体系统？书中给出了清晰的定义：智能体系统是一种能够感知环境、根据目标做出决策、并自主执行行动的计算实体。不同于遵循固定脚本的传统软件，智能体系统具备以下核心特征： - 自主性：无需持续人工监督即可行动 - 主动性：能主动发起行动以实现目标 - 反应性：能有效应对环境变化 - 工具使用：与外部 API、数据库或服务交互 - 记忆：在多次交互中保留信息 - 通信：与用户、系统或其他智能体交互 3. 智能体的演进层级书中提出了一个实用的智能体分级框架： - 0 级：核心推理引擎 - 大语言模型本身，仅基于预训练知识响应，无法感知当前事件。 - 1 级：连接外部的问题解决者 - 能够使用外部工具来解决超出预训练知识范围的问题。这是 RAG 技术的典型应用场景。 - 2 级：战略性问题解决者 - 具备战略规划、主动协助和自我提升能力。核心赋能技能是提示工程和上下文工程。它能够战略性地选择、打包和管理最相关信息，确保高效决策。 - 3 级：协作型多智能体系统 - 这是一次重大范式转变：不再追求单一全能的超级智能体，而是转向复杂的、协作式的多智能体系统。就像人类组织一样，由不同专家组成的团队协同工作，通过劳动分工和协调产生强大的协同效应。 4. 智能体的未来：五大假设书中对智能体的未来提出了五个极具前瞻性的假设：假设 1：通用智能体的崛起 - 从狭隘专家演变为能高可靠性管理复杂、模糊、长期目标的通用型选手。替代路径是「乐高式」的小型语言模型组合。假设 2：深度个性化与主动发现目标 - 智能体将成为深度个性化的主动合作伙伴，不仅响应指令，更能预测需求，主动发现和支持用户的潜在目标。假设 3：具身化与物理世界交互 - 通过与机器人技术结合，智能体将挣脱数字束缚，在物理世界中运作，弥合数字智能与物理行动的鸿沟。假设 4：智能体驱动的经济 - 高度自主的智能体将成为经济中的积极参与者，创造新的市场和商业模式，形成超高效率的「智能体经济」。假设 5：目标驱动的、可演化的多智能体系统 - 系统能基于声明性目标自主运作，动态修改多智能体工作团队的拓扑结构，在架构层面和指令层面实现真正的自我演化。

#智能体 #设计模式 #AI翻译 #开源项目 #公益

1个月前

智能体能赚钱的原因有三： 1、观众永远不可能知道什么是 system prompt，所以永远不可能理解智能体 2、那么无论是什么事情，只要你说智能体能实现，就有人信 3、真正的难度在于，用服从性测试，筛选出忠诚的傻子

#智能体 #赚钱 #system prompt #服从性测试 #忠诚的傻子

1个月前

软件开发里有一种叫 TDD（Test-Driven Development）的方式，简单讲，就是先写好测试用例，然后再写程序。每写一部分代码就立刻跑对应的测试，看能不能通过。能通过说明实现符合预期，不通过就说明有 bug。TDD 的好处在于，它让整个研发过程可验证、可回归，也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD，只不过测试用例变成了数据集（Dataset）。每一次模型迭代，本质上就是在跑新的单测（Benchmark）。MMLU 测知识广度，GSM8K 测逻辑推理，HumanEval 测编程能力，AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩，Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑，每一代 AI 都得交卷。 2025 可以说是智能体（Agent）元年，模型不再只靠会算、会说来评估，而是要能动手。要让一个 Agent 真正好用，光靠写 Prompt、加检索、拼上下文是不够的，它得能使用工具，能执行 Python、Shell、SQL，能感知状态、理解任务依赖，更要能在反馈中调整自己的行为。评估 Agent 好不好用，也就不能只看单轮问答，而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子，让 Agent 去修真实项目里的 Bug，看能否通过单测。OpenAI 的 MLE-bench 则更进一步，考察 Agent 在机器学习工程中的执行力，从读数据、清洗、编程、训练，到收集指标、分析再改进，形成一个完整的闭环。社区里还在探索更复杂的测试，比如 App-bench，看 Agent 是否能独立开发一个 Web 应用，从前端到后端再到部署上线；或者 Ops-bench，让它去处理运维任务，比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步，正在从“能思考”走向“能执行”。TDD 让软件工程可验证，而在 AI 世界，Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向，Benchmark 则刻画了行业标准与竞争格局。未来的竞争，不再是谁的模型更聪明，而是谁的智能体更能干活。真正厉害的 AI，不一定语义最深、参数最多，而是那个能自己规划、自己验证、自己改进的 Agent。换句话说，AI 的未来不只是更聪明的脑子，而是更靠谱的手和脚，能想、能做、还能自己查错修正，这才是“用得上”的智能。

#AI #tdd #agent #Benchmark #智能体

1个月前

用通义千问做智能体竟然不允许选择模型……太蠢了

#通义千问 #智能体 #模型选择 #负面评价 #产品体验

1个月前

前端开发 AI Agent 智能体，需要掌握哪些知识？

#前端开发 #AI Agent #智能体 #知识 #技术

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

LLM的智能体现在interact as intelligence

#多智能体之争：Anthropic生态VS单智能体· 77 条信息

#LLM #智能体 #人工智能

1个月前

苏杰在 2010 年写了一本书，叫《人人都是产品经理》。十五年过去了，站在今天，或许也可以说，“人人都是程序员”，因为编程的范式正在发生深刻变化。在神经网络出现之前（2012 年代表作是 AlexNet），可以称为编程 1.0 阶段。那时我们依赖确定性的逻辑来解决问题：a 就是 a，b 就是 b，程序的执行路径清晰、固定。神经网络的出现带来了编程 2.0。通过在不同数据集上的训练，我们可以不断调整网络中每个节点的权重，进而影响最终输出。编程的任务变成了设定问题的起点与终点，神经网络则在“答题空间”里寻找解答。这个答案未必最优，但能有效解决问题。Karpathy 在 2017 年的《Software 2.0》里对此做了系统阐述。而到了大模型时代，可以称之为编程 3.0。神经网络本身进化为“可编程体”，编程语言就是 Prompt。人们不再需要写复杂的函数和条件判断，而是通过自然语言来影响模型的推理过程。Prompt 之所以能改变输出，是因为它重塑了模型的“输入分布”，从而改变了注意力的聚焦点与解题路径。换句话说，Prompt 相当于在潜在的解题空间里拉起一条“轨道”，引导模型更快更准地落在某类答案上。从“写死逻辑”到“训练权重”，再到“语言编程”，编程的本质正在从控制计算机，转向引导智能体。未来，当人人都能以语言驱动智能，编程将不再是少数人的技能，而会像写作一样，成为每个人的日常能力。

#编程未来 #人人都是程序员 #大模型时代 #prompt编程 #智能体

1个月前

今天回家的主要任务就是把群聊导出来，做一个智能体…加油💪💪

#群聊 #智能体 #回家 #任务 #加油

1个月前

chatlog 微信群聊导出工具今天想把群聊导出来做一个智能体给后入群的同学，找了这个工具，可以将本地备份的信息的每个群导出来，感觉还不错。我还没实操过，晚上看看

#微信群聊 #导出工具 #智能体 #本地备份 #未实操

1个月前

AIGC 内容越来越多，依靠 Token 降低信噪比，是我唯一想做的事儿了： 1/ 用智能体克隆我筛选内容的思维 2/ 开发 RPA，带着预设替我 7 x 24 小时看片儿 3/ 筛选出爆款选题来做内容看到 RPA 停止工作，我就睡不着。。。

#AIGC #智能体 #RPA #内容筛选 #焦虑

1个月前

智能体到底能不能一键帮你解决写短视频文案、写直播文案、写朋友圈文案、做私域运营、做业务优化等等答案是你能独立解决上述所有问题，智能体就能帮你全部解决若你不能独立解决，且对上述业务一知半解，别说智能体，给你一个解决问题的专家，肉身来帮忙，也还是一个问题都解决不了智能体解决问题的能力是无限的但人的认知是有限的内心卡点却是无限的

#智能体 #解决问题能力 #业务优化 #认知有限 #依赖性

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2个月前

智能体的阶段作用就是提供行为轨迹数据做agentic LLM内化

#多智能体之争：Anthropic生态VS单智能体· 77 条信息

#智能体 #行为轨迹数据 #agentic LLM #内化

2个月前

这个还蛮好用的 1、先是把我自己的信息喂进去了（推特抖音小红书） 2、把我的智能体平移到了里面每次问问题都是三个大模型一起跑然后汇总在一起输出最优结果给我如果我不满意可以随时调取不同大模型的思考过程做调整 3、他每次跟我说话，都会叫我【小年】，而且每个智能体每次AI对话他会结合我的经历对我讲话非常私人订制领取有 1000 积分可以玩一玩，先别着急充会员

#智能体 #AI对话 #私人订制 #小年 #信息喂入

2个月前

大家不要被 Claude Code 的名字给劝退了，这绝对不是程序员的专用工具，这是目前最强的在你电脑的本地环境上全自动完成数字工作的“智能体”，因为能写代码和 MCP 调用工具，基本什么活动能干。。。你唯一需要会的就是使用命令行和选择一个工作目录✨ 昨天让 ChatGPT Agent 帮我收集书单封面和做集合图片，一两个小时都搞不掂，Claude Code 在本地十分钟不用就完美完成任务，有一张封面下载错误但知错就改！很快写程序交付可用软件，会变成让 Agent 写程序帮你完成任务，然后就不用软件了！或者说软件被 Agent 来使用了，这将解构掉现在的 SaaS 行业。。。🤔

AI编程工具激战：Claude Code、Gemini Cli崛起· 1169 条信息

#Claude Code #智能体 #自动化 #ChatGPT Agent #SaaS 行业解构

2个月前

我在腾讯元器做的智能体，累计消耗了 1.6 亿 token，相当于两三千本书其中在微信公众号对接的智能体，消耗了 3251.45 万 token

#智能体 #腾讯元器 #微信公众号 #Token消耗 #成本