#智能体

sitin
2天前
SOP 型内容生产者,很擅长阉割掉 Claude Code 的智力 我见到一些「创作者」非常依赖所谓的 SOP、工作流去生产内容,他们觉得「智能体」加上系统提示词生产内容,和用 claude code 没区别 在他们的工作环境里,上下文是不重要的(其实是根本没有),反正都是把一堆提示词灌进大模型,你怎么灌都是灌,Agent 除了用起来比 chatbot 不方便一点,可以说是毫无优势了 这里会造成一个死锁 因为原有的生产方式没有有效沉淀内容 -> 所以使用 Agent 的初期效果和 chatbot 没区别 -> 所以继续使用 chatbot -> 所以坚信 Agent 除了用起来不方便没有其他区别 但真正好的 AI 协作方式是定义目标和约束,而不是定义步骤 在定义步骤的情况下,你希望的是 prompt1 -> prompt2-> prompt3 -> prompt4 即便迁移到 claude code,也不过是 skill1 -> skill2 -> skill3 -> skill4,垃圾依然是垃圾 而在定义目标和约束的情况下,我希望智力可以通过我积累的内容得以涌现 当我试图把内容改成所谓的「更大人群面选题」时候,claude code 会提醒我,我曾经写过如何用一个更窄的选题,同样做出好内容 当我找不到观点的时候,claude code 不仅可以推理出观点,还可以检索到我曾经被数据验证过的观点,而不是把「观点」和「观点」混为一谈 当我用 skill 去写所谓的「爆款标题」的时候,claude code 会告诉我,我迭代标题的过程、我对标题的理解、我此时此刻写的标题,和我写标题的 skill,不是一件事,而是有内在关联的四件事 Agent 会在我的足够有密度的上下文里,找到我自己看不见的连接,有力量的不是模型能力,是上下文密度 不认可 Agent 创作的「创作者们」,认为 claude code 无法升级他们的 SOP 他们觉得调用一个又一个 skill,和你切换一个又一个「智能体」有啥区别? 我的看法是:这是一群使用旧工具极其熟练的人,旧工具带来的回报越大,他们就越是认为旧工具带来的 SOP 价值连城。于是任何无法融入旧 SOP 的新工具,都是垃圾工具 没关系,只要你永远看不见「上下文」,你就永远正确,「智能体」就永远无敌,你就永远立于不败之地,新范式就永远是花花架子 可是,真正有问题的,到底是新的工具,还是被困在旧范式里面的人? 等汽车遍布马路的时候,我们再来看看到底是谁在骑马 这一天不会太久远,比你想象的快十倍
重读 OpenAI「Harness engineering」工程博客,重新理解这个「agent-first」时代的工程支架,如何真正用好 Codex? 在 agent-first 的软件开发中,工程师的核心任务正从“直接写代码”转向“设计让智能体稳定产出代码的系统”。 未来真正决定效率的,不再是模型有多强,而是团队是否具备以下能力: · 把需求转成清晰的任务和验收标准 · 把知识沉淀进仓库,而不是留在聊天和人脑里 · 把架构约束、代码规范、测试和反馈机制做成可执行规则 · 让 agent 能直接观察、验证、修复问题 OpenAI 用 Codex 做了一个极端实验: 从空仓库开始,不手写代码,由 agent 生成产品代码、测试、CI、文档和工具,并在真实使用中持续迭代。 OpenAI 并不认为“AI 已经能完全代替工程师”,反而是: 如果软件团队把 agent 当作主要执行者,那么工程体系本身必须重构。 重构的重点不是 prompt 技巧,而是四件事: · 环境:让 agent 能运行、调试、测试、观察系统 · 知识:让关键文档、规则、设计决策都在仓库内可检索、可维护 · 约束:用 lint、结构测试、依赖规则约束架构演化 · 回路:让日志、指标、评审、失败信息都能直接反馈给 agent 最值得重视的启发 第一,知识是否“在仓库里”变得非常关键。 对 agent 来说,运行时读不到的知识基本等于不存在。因此,文档不再只是辅助材料,而是生产系统的一部分。 第二,严格边界比过去更重要。 agent 的产出速度很快,如果没有清晰的架构层次、依赖方向和机械化规则,系统会更快失控,而不是更快进步。 第三,测试、可观测性和评审正在变成 agent 的工作输入。 它们不只是给人看的质量工具,也是在训练 agent 自我修正的反馈机制。
meng shao
4个月前
OpenAI 官方指南:构建 AI 原生工程团队 2025年软件开发已正式进入“智能体主导执行、人类负责审阅与决策”的时代。整个软件开发生命周期的 80% 重复性工作都可以也应该交给编码智能体完成,工程师的价值正在快速从“写代码”迁移到“定义问题、设计系统、把握方向”。 能力演进时间表 · 早期:只能补全几行代码,推理时间仅30秒左右。 · 现在:领先模型已能持续推理2小时以上,每7个月左右能力翻倍,可一次性理解整个代码库、调用工具、自动跑测试、自我纠错。 · 结果:从规划到部署的完整特性,智能体已能独立交付,人类只需审阅和做最终决策。 · OpenAI 内部真实数据:原本需要几周的任务,现在几天即可完成,工程师把大量文档、依赖维护、特性旗标清理等重复性工作完全交给 Codex 智能体。 软件开发五大阶段的彻底重构 1. Plan(规划阶段) · 传统痛点:需求模糊、依赖不清、反复开会对齐。 · 现在做法:把产品规格、票据扔给智能体,它会自动拆解成子任务、标记模糊点、找出所有依赖文件、预估实现难度、指出潜在风险。 · 工程师真正要做的事:决定优先级、取舍范围、最终拍板故事点数。 · 立刻可做:找出团队里最常需要“代码对齐”的场景(如新特性范围讨论),先让智能体自动补充上下文和依赖分析。 2. Design(设计阶段) · 传统痛点:Figma 转代码慢、反复返工、很难快速试多个方案。 · 现在做法:多模态智能体直接把设计稿(Figma/图片)转成100%符合现有设计系统的高保真 React/Vue/SwiftUI 组件,10秒内出3-5个不同实现方案。 · 工程师真正要做的事:决定整体设计语言、交互模式、组件复用策略。 · 立刻可做:把组件库通过 MCP 暴露给智能体,建立“设计图→组件→代码”一键链路。 3. Build(编码阶段) · 传统痛点:大量样板代码、找旧实现、上下文频繁切换、编译错来回修。 · 现在做法:智能体一次性生成完整特性,包括后端 API、数据库迁移、前端页面、错误处理、日志、单元测试、README,全程跨几十个文件保持一致,边写边自动修复编译错误。 · 工程师真正要做的事:只关注架构影响、安全、性能、可维护性等高层问题。 · 立刻可做:从小而规格明确的任务开始;要求智能体先输出 PLAN. md 再动手;建立 AGENTS. md 文件教它团队的独特规范和测试流程。 4. Test(测试阶段) · 传统痛点:测试永远写不完、覆盖率被牺牲、边缘 case 容易漏。 · 现在做法:智能体根据产品规格自动生成测试用例,尤其擅长找出人类容易忽略的极端情况;代码改动后自动更新测试。 · 工程师真正要做的事:确保测试真实反映产品意图,杜绝“假测试”(看起来通过但没测到点)。 · 立刻可做:让智能体在独立会话中专门生成测试;人类严格审查;确保智能体有权限完整运行测试套件。 5. Review & Deploy(代码审查与部署阶段) · 传统痛点:审查量巨大、容易漏安全或性能问题。 · 现在做法:智能体作为第一轮审查者,检查风格、一致性、基本安全漏洞;部署流水线中自动修复小问题。 · 工程师真正要做的事:只看高层设计、跨团队影响、最终上线决策。 · 趋势:人类代码审查量将持续下降到现在的10%-20%。 新的核心工作流:Delegate → Review → Own · Delegate(委托):所有明确、可验证、重复性高的任务全部扔给智能体。 · Review(审阅):人类快速检查输出,修正微妙错误,确保符合团队规范。 · Own(拥有):人类永远保留三件事——系统级洞察、创造性决策、战略方向。 工程师每天的时间分配正在发生巨变 · 过去:70%写代码 + 20%开会 + 10%思考 · 现在:10%写代码 + 20%审阅智能体输出 + 70%定义需求、设计系统、思考长期方向 给工程 Leader 的 5 条立即可执行建议 1. 从团队最痛苦的阶段开始(大多数团队是 Build 和 Test) 2. 先用现成工具(GitHub Copilot 最新版、Cursor、Codex CLI、o3/o4 等)跑小任务,快速积累信任 3. 立刻创建两份神器文档: · AGENTS. md(教智能体了解你们代码库的独特习惯) · 每张票据强制要求先写 PLAN. md(智能体最爱清晰的计划) 4. 把测试覆盖率当作“给智能体下命令的语言”——测试越好,智能体越靠谱。 5. 最重要:完成文化升级——把“亲自写代码”视为可以外包的机械劳动,把“清晰定义要什么、为什么、做到多好”视为工程师的真正核心竞争力。 OpenAI 官方指南:
ginobefun
5个月前
《智能体设计模式》第六章「规划模式」完成翻译,目前已翻译章节: 00 - 前言部分 01 - 第一章:提示链模式 02 - 第二章:路由模式 03 - 第三章:并行模式 04 - 第四章:反思模式 05 - 第五章:工具使用模式 06 - 第六章:规划模式 规划模式让智能体具备前瞻性思维能力,能够将复杂任务拆解为更小且可管理的步骤,并制定实现预期结果的策略。通过规划能力,智能体不再只是对眼前输入作出反应,而是能够自主规划从初始状态到目标状态的完整路径。这里为大家梳理几个关键要点: 1. 核心理念:从被动响应到主动规划 规划模式的核心在于建立「理解目标 → 制定计划 → 执行步骤 → 灵活调整」的智能流程,让智能体具备战略性、目标导向的执行能力。 - 传统模式的局限:基础智能体只能对眼前输入作出反应,缺乏处理复杂多步骤任务的能力,无法将高层次目标拆解为可执行的子任务。 - 规划模式的价值:智能体能够接收高层次目标并自主拆解为有序的执行步骤,在遇到阻碍时灵活调整路线,从而有效处理包含多个步骤和相互依赖的复杂任务。 2. 规划的关键特征 规划模式通过以下特征实现智能化的任务执行: - 目标驱动:接收高层次的目标声明(做什么)而非具体指令(如何做」,由智能体自主决定实现路径。 - 即时生成:计划不是预先存在的,而是根据当前状况和目标要求即时生成的。 - 灵活应变:初步计划只是出发点,智能体能够接纳新信息并在遇到阻碍时动态调整策略。 - 结构化分解:将复杂目标拆解为一系列更小、可执行的步骤或子目标,按逻辑顺序处理依赖关系。 3. 典型应用场景 规划模式在四大领域展现出核心价值: - 流程自动化:编排复杂工作流,如新员工入职流程,包括创建账户、分配培训、部门协调等有序子任务。 - 机器人与自主导航:进行状态空间遍历,生成从起始状态到目标状态的最优路径,同时遵守环境约束。 - 结构化信息整合:生成研究报告等复杂输出,规划包含信息收集、数据归纳、内容结构化、迭代打磨等阶段。 - 多步骤问题解决:制定并对系统化流程进行诊断、实施解决方案,并在必要时升级处理。 4. 实现框架与特点 - CrewAI:通过定义明确的智能体角色和任务,支持先规划后执行的工作流,适合结构化的多步骤任务。 - Google 深度研究:利用多步骤动态迭代流程,把用户提示拆解为研究计划,循环执行搜索与分析,生成带引用的结构化报告。 - OpenAI 深度研究接口:提供编程化控制能力,支持 MCP 协议连接私有知识库,展示完整的中间步骤(推理、搜索、代码执行)。 5. 使用时机与权衡 当任务复杂度超出单一操作范围时,应当使用规划模式,但需要权衡灵活性与可预测性: - 适用场景:任务需要多个相互依赖的步骤才能完成;「如何做」的方案需要探索而非已经明确;需要自动化处理复杂的工作流程;需要生成全面、综合的结果。 - 权衡考量:当问题的解决方法已经清楚且可重复时,固定流程比动态规划更有效;规划增加灵活性的同时也引入了不确定性;需要在自主性和可预测性之间找到平衡。 - 核心价值:将智能体从简单的被动响应者提升为战略性、目标导向的执行者,能够管理复杂流程并产出全面综合的结果。 点击项目链接 可双语对照阅读,跟踪最新翻译进展,也欢迎加入交流群一起阅读讨论、反馈问题或随个 Star ~