meng shao
10小时前
Anthropic 实录:AI 如何重塑我们工作的未来 效率的质变:从“辅助”到“核心驱动” AI 不再只是偶尔使用的工具,已成为工作的核心部分。 · 惊人的生产力提升:员工自述生产力提升了50%(一年前仅为20%),AI参与了约 60% 的日常工作。 · “全栈化”能力爆发:AI 打破了技能壁垒。后端工程师能轻松写出复杂的前端 UI,研究员也能搞定数据可视化。员工们变得更加“全栈”,敢于接手以前因技术门槛而却步的任务。 · 解决“隐形痛点”:约 8.6% 的 AI 任务用于修复那些重要但以前被优先级排后的“小毛病”,如代码重构或制作小工具,提升了整体代码质量和生活质量。 角色重塑:从“代码撰写者”到 “AI 管理者” · 以审查为主:人类逐渐从逐行写代码,转变为“AI 智能体的管理者”。工作重心变成了拆解任务、审查 AI 产出以及架构设计。 · 信任的进化:类似于从“只在陌生路段用导航”到“全天候依赖导航”,员工对AI的信任度在加深,开始将更复杂、更自主的任务交给 Claude。 硬币的另一面:挑战与焦虑 · 技能退化:这是最大的担忧。如果不再亲手写代码,人类是否还能保持敏锐的技术直觉?更讽刺的是,审查 AI 代码需要极高的技术造诣,但过度依赖 AI 可能恰恰削弱这种能力。 · 社交“孤岛”效应:Claude 成了遇到问题时的“第一联系人”。这导致同事间的互动减少,资深工程师发现初级工程师的提问变少了。传统的“师徒制”传帮带关系面临解体。 · 职业焦虑:虽然短期内效率提升让人兴奋,但长期来看,许多人对未来感到迷茫:“如果 AI 能做所有事,我的价值在哪里?”甚至有人感觉是在“每天上班致力于让自己失业”。 阅读原文
meng shao
11小时前
[论文解读] 从代码基础模型到智能体与应用:代码智能实践指南 论文总结了当前最前沿的技术,还手把手地展示了如何从零开始构建和应用代码智能——从基础模型训练一直讲到能够独立写代码的 AI Agents。 核心主题:代码智能的“全生命周期”百科全书 好比一本 “AI 程序员养成手册”。没有局限于某一个具体算法,而是系统性地梳理了代码大模型从诞生到落地的完整流程: · 数据准备:AI读什么书(如何清洗和筛选高质量代码数据) · 预训练:打基础(如何让模型理解编程语言的语法和逻辑) · 微调:学技能(如何教模型回答编程问题、修 Bug) · 强化学习:精进(如何通过反馈让模型写出的代码质量更高) · 自主智能体:最终形态(如何让 AI 像真正的工程师一样,自主规划、写码、调试、部署) 关键看点与对比 论文对市面上的两大类“选手”进行了深入的对比评测: · 通用全能型选手:如 GPT-4, Claude, LLaMA。它们什么都懂,写代码也不错。 · 代码专用型选手:如 StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder。它们专攻编程,往往在特定编程任务上性价比更高。 结论是:虽然通用模型很强,但经过专门优化的代码模型在处理复杂工程问题时,往往能提供更精准、更符合开发者习惯的帮助。 痛点剖析:学术界 vs 工业界的“代沟” 这是这篇论文最接地气的地方,直接指出了“刷榜分高”不等于“好用”: · 学术界喜欢看 HumanEval 这种简单的算法题跑分(比如“写一个斐波那契数列”)。 · 工业界(真实开发)面对的是:庞大的代码库、复杂的依赖关系、代码安全性、以及如何与现有的开发流集成。 · 论文详细探讨了如何填补这个鸿沟,让AI不仅仅是“做题家”,而是能真正干活的“工程师”。 未来趋势:从 “Copilot” 到 “Agent” · 过去/现在:Copilot 模式。你需要一步步告诉 AI “写个函数”、“解释这段代码”,它被动响应。 · 未来:Agent 模式。你只需要说“帮我给登录页面加个验证码功能”,AI 就会自己去阅读现有代码 -> 规划修改方案 -> 写代码 -> 运行测试 -> 修复报错 -> 提交代码。 今年具有代表性的工具,如 Github Copilot, Cursor, Trae, Claude Code, OpenAI CodeX 等正在引领这种从“辅助”到“智能体”的转变。 论文地址
[开源推荐] HMPL: 极简的服务端驱动模板语言,比 React 更轻、比传统 jQuery 更现代、类似 HTMX 但更具模板化控制力。 核心目标非常明确:在保持现代 Web 应用动态交互体验的同时,极大地减少客户端 JavaScript 的代码量和复杂性,可以把它理解为 HTMX 和 EJS 之间的某种“中间形态”——它既拥有传统模板引擎的直观,又具备现代“服务端驱动 UI”的能力。 💡 核心理念:在 HTML 中定义“请求” HMPL 最大的创新在于它的语法逻辑。传统的做法是“写 JS 发请求 -> 拿到数据 -> 更新 DOM”,而 HMPL 允许你直接在 HTML 模板中声明“这个区块的数据来自哪里”。 · 所见即所得的数据流:你不需要编写冗长的 fetch 或 axios 代码,只需在模板中使用特定的语法(如 {{ src: "/api/component" }}),HMPL 就会自动处理请求、获取服务端返回的 HTML 片段,并安全地渲染到页面上。 · 服务端为中心:它推崇将逻辑放回服务端,客户端只负责“按需获取和展示”。这使得它天然支持类似 SSR 的效果,但没有复杂的框架负担。 ✨ 关键特性解读 1. 极致轻量 (Lightweight) 在现代前端框架(如 React, Vue)动辄几十 KB 甚至更大的背景下,HMPL 的核心非常小巧(gzip 后约 24KB 甚至更小),极其适合对首屏加载速度和性能有高要求的项目。 2. 安全性内置 (Security First) 直接渲染服务端 HTML 最怕 XSS 攻击。HMPL 聪明地集成了 DOMPurify,默认对渲染内容进行清洗和消毒,解决了开发者最担心的安全隐患。 3. 极佳的开发者体验 (DX) 尽管是小众语言,但它提供了完善的配套工具,包括 VS Code 插件、Vite 插件和 Webpack Loader。这意味着你编写 HMPL 时也能享受到语法高亮、自动补全等现代开发体验。 4. 灵活性 (Flexibility) 它不是要取代整个框架。你可以把它作为一个独立工具使用,也可以将其嵌入到现有的 Vue 或 React 项目中,专门处理某些需要动态加载的服务端内容。 ⚖️ 行业价值与评价 在当前的前端领域,HMPL 的出现反映了一种反思: · 拒绝过度工程化:我们真的需要为每一个简单的动态页面都引入庞大的 SPA 框架吗?HMPL 给出了否定的答案。 · 更低的学习门槛:对于后端开发者或全栈开发者来说,HMPL 这种“写模板 = 写逻辑”的方式,比学习整套 React Hooks 或 Vue Lifecycle 要直观得多。 开源地址:
[Anthropic 工程博客] 构建长运行智能体的高效框架 Anthropic 最新工程博客探讨了如何为长运行智能体设计有效的“框架”,以应对复杂任务在多会话间的持续执行挑战。基于 Claude Agent SDK 实际经验,强调通过结构化环境和渐进式工作流程,让智能体像人类软件工程师一样,逐步推进项目,而非试图一蹴而就。 长运行智能体的核心挑战 长运行智能体目标是处理跨小时或数天的复杂任务,例如构建一个完整复杂的软件项目。但由于上下文窗口的容量限制,每个会话都像从零开始:智能体缺乏先前记忆,容易陷入“一次性完成”的陷阱——试图在单一会话中搞定整个项目,导致上下文耗尽、代码杂乱或文档缺失。其他常见问题包括: · 过早宣告完成:后续智能体看到部分进展,就错误地标记任务结束。 · 状态恢复困难:智能体花大量时间猜测未完成工作,或在 buggy 环境中挣扎。 · 测试缺失:功能看似就位,但未通过端到端验证,隐藏潜在问题。 通过实验(如构建 200+ 功能的网页克隆项目)总结这些失败模式,并提供针对性解决方案,借鉴软件工程最佳实践,如 Git 版本控制和自动化测试。 提出的解决方案:双智能体框架与结构化环境 解决方案是引入“框架”——一个由提示、脚本和文件组成的系统,确保会话间状态持久化和干净交接。具体分为两个角色: 1. 初始化智能体(Initializer Agent):仅用于首轮会话,负责搭建初始环境。生成关键文件,包括: · feature_list.json:一个JSON格式的功能清单,列出所有任务(如“创建新聊天”),每个包含描述、步骤和初始“passes”状态(false)。JSON格式确保不可变性,防止后续编辑。 · claude-progress.txt:日志文件,记录动作和进展。 · init. sh:启动脚本,用于运行开发服务器、测试基础功能,减少后续设置开销。 初始化后,进行首次 Git 提交,形成干净基线。 2. 编码智能体(Coding Agent):后续会话专用,专注于渐进式进展。每个会话仅处理一个功能: · 会话启动例程:检查目录(pwd)、审阅 Git 日志和进展文件、运行 init. sh 启动环境、验证核心测试。 · 工作流程:从 JSON 清单选一未完成功能,编码、提交描述性 Git 变更、更新 “passes” 状态(仅在通过测试后),并记录日志。 · 强调“干净状态”(clean state):结束时,代码须无bug、文档齐全、可直接合并到主分支。 关键实践与工具集成 · 功能清单与 Git:JSON 清单防止“过早完成”,Git 提供回滚和历史追踪。实验显示,相比 Markdown,JSON 减少了不当修改。 · 端到端测试:集成浏览器自动化工具(如 Puppeteer MCP 服务器),模拟人类操作(如点击模态框、截图验证)。这捕捉代码审查忽略的交互 bug,但文章也指出局限,如原生浏览器元素的处理。 · 提示策略:初始化和编码提示不同——前者聚焦搭建,后者强调单一功能和验证。使用强约束语言(如“绝不编辑测试”)规避失败。 · 失败模式表格:文章附表总结问题(如“设置混淆”)及应对(如标准化脚本),便于实际应用。 结论与展望 Anthropic 的经验证明,这种框架能显著提升长运行智能体的可靠性:从混乱的“一击即溃”转向工程化的持续迭代。关键启示是借用人类工程实践(如版本控制、测试驱动开发),结合 AI 的自动化潜力。从简单项目起步,审视失败模式,并扩展到多智能体系统(如专职测试智能体)。未来方向可以泛化到其他领域,如科学研究或财务建模,探索更复杂的协作架构。 博客地址:
今天在家做清洁,突然有个想法: 我似乎更喜欢做开荒,不喜欢平时的清洁。这和我更喜欢 0-1 创业,不知道大厂的 1-100 很像啊 😂 记得家里装修完第一次开荒,家人说请人做「3人8小时 800元」,作为抠门的我,自然的揽下了这个活儿,赚了一半的零花钱 400元 😂 我一个人从早上7点做到晚上11点,中间除了快速吃饭,基本没停过,做完的感觉: 确实嘴硬低估了开荒的工作量,那种灰尘不是一层层,是一堆堆的。不过。。很爽很解压,因为是空白的,干起来非常痛快有成就感,眼看着一点点的变干净的过程,非常爽! 而平时做清洁,因为家小东西多,到处都摆满了东西甚至好多层。清洁的时候要挪开一点打扫一点,感觉大半时间都是在摆放,为清洁腾出空间。而且,前后区别不大,只是心理上觉得确实清洁过了,肉眼看上去干净了一点,不爽! 再回到我工作的选择,好像也是这样,我很喜欢 0-1 的过程,很累但很爽,顾虑很少,内耗很少,一个目标,把它做出来,推出去,干就完了! 不喜欢 1-100 的过程,需要考虑的太多,人太多,人带来的事情之外的内耗太多,最后往往大家关注的点会失焦,从把事情做好,虚到每个人绩效里的证明,或者叫功绩。很多人忙了很久,其实没做什么,只是要让这些人有事可做 😂(当然这里只是我过往的经历,各位大厂朋友别对号入座)
[Anthropic 工程博客解读] 高级工具使用功能:工具搜索工具、程序化工具调用和工具使用示例三项技术结合,显著降低 Token 消耗,工具选择更明确,复杂调用更准确。 Anthropic 最近在 Claude 开发者平台上推出了高级工具使用 (advanced tool use) 功能,让 AI 智能体能够高效处理数百甚至数千个工具,而不会被上下文窗口的限制所束缚。想象一下,一个智能体需要同时操作 IDE、Git、Slack、GitHub、Jira 或数据库等系统——传统方式下,工具定义会占用海量 Token,导致上下文膨胀、工具选择错误或调用延迟。这些新功能通过动态加载、代码编排和示例指导,显著提升了智能体的实用性和可扩展性。 核心挑战与应对策略 构建可靠的工具使用系统面临三大痛点: 一是 Token 消耗过高——例如,从多个服务(如 GitHub 和 Slack)拉取工具定义,可能瞬间吃掉 50,000+ Token 二是工具选择不准——类似名称的工具(如 notification-send-user 和 notification-send-channel)容易混淆 三是调用模式模糊——JSON 模式虽规范参数,但无法直观展示复杂格式,如日期或嵌套对象。 Anthropic 的策略是“延迟与智能”:不一次性加载所有工具,而是按需发现和调用;用代码代替自然语言来协调多步操作,减少推理轮次;并通过示例澄清用法。这些方法本质上将工具使用从静态描述转向动态执行,帮助智能体在资源有限的环境中实现复杂工作流。 三大关键技术 1. 工具搜索工具(Tool Search Tool) 这是一个“元工具”,允许智能体在运行时搜索并加载相关工具,而非预加载全部定义。工具标记 defer_loading: true 后,只有搜索工具和少数核心工具进入初始上下文。智能体可通过名称或描述动态拉取,例如查询 GitHub 任务时,只加载 github.createPullRequest。 优势:Token 节省高达 85%(从 77K 降至 8.7K),准确率提升显著(如 Claude Opus 4 从 49% 升至 74%)。实现简单:在工具数组中添加搜索配置,即可支持 MCP 的批量延迟加载。这让智能体像“智能索引”一样,高效导航庞大工具库。 2. 程序化工具调用(Programmatic Tool Calling) 智能体不再逐一用自然语言调用工具,而是生成 Python 代码在沙箱环境中执行多工具协调。工具需标记 allowed_callers: ["code_execution_20250825"],Claude 则输出包含循环、条件和并行执行(如 asyncio.gather)的代码片段。 示例:检查预算超支时,代码可并行获取团队成员、预算和支出数据,只将最终结果(如超支列表)返回给智能体,避免中间数据污染上下文。 优势:Token 减少 37%(从 43,588 降至 27,297),延迟降低(无需多轮推理),准确率在知识检索任务中从 25.6% 升至 28.5%。这特别适合处理大表格或 API 链路,如 Claude for Excel 中的批量数据分析。 3. 工具使用示例(Tool Use Examples) 补充 JSON 模式,提供输入示例来演示实际调用模式。例如,在 create_ticket 工具中,列出日期格式(YYYY-MM-DD)、嵌套对象(如 reporter)和可选参数(紧急升级)。每个工具可附 2-3 个变体示例。 优势:复杂参数准确率从 72% 跃升至 90%,尤其在 ID 格式或参数关联上。这像给智能体一份“用户手册”,让它快速掌握隐含规则。 实验结果与展望 内部基准测试显示,这些功能在 MCP 和 GIA 基准上均有提升:上下文保留率达 85%,整体准确率平均提高 10-20%。例如,在处理大型工具集时,Claude Opus 4.5 的性能从 79.5% 升至 88.1%。实际应用中,它已助力智能体无缝集成 Excel 或 Jira 等场景。
OpenAI「Guides and resources」 这个网址建议大家收藏起来: OpenAI 给开发者、初创企业和大型企业的「指南和资源」,现在有 11 个内容,覆盖从工程实践到领导力决策的 AI 应用,重点强调“人类+AI”协作,避免过度依赖模型。 1. 构建 AI 原生工程团队 探讨如何组建以 AI 驱动的开发团队。 · 关键话题:编码智能体加速软件开发生命周期(如从原型到生产) · 目标受众:工程领导者 · 洞见:智能体可缩短开发时间 40%-60%,但需集成人类审查以防错误 2. 从实验到部署 提供 AI 规模化路径图 · 话题:从 POC 到企业级 rollout 的步骤,包括资源分配和指标追踪 · 目标:中大型企业 · 洞见:渐进式扩展可降低 30% 失败率,附带 checklist 3. ChatGPT 在工作中的使用与采用模式 分析企业如何整合 ChatGPT · 话题:跨部门案例,如营销自动化和数据分析 · 目标:HR/运营经理 · 洞见:公司采用率达 70%,生产力提升显著,但需定制提示以匹配行业 4. 使用 GPT-5 模型系列构建 针对初创企业的迁移策略 · 话题:从旧模型过渡、提示优化和规模化技巧 · 目标:初创开发者 · 洞见:GPT-5 在复杂推理上优于前代 25%,建议从小规模测试起步 5. 在 AI 时代保持领先 领导者指南 · 话题:战略规划、人才培养和竞争优势 · 目标:C 级高管 · 洞见:AI 素养培训可提升决策速度,包含案例研究 6. GPT-5 内部解析 评估 GPT-5 的业务提示 · 话题:基准测试、成本效益和集成指南 · 目标:产品经理 · 洞见:适用于高负载任务,如实时分析,强调隐私功能 7. OpenAI 如何使用 Codex 开发者指南 · 话题:代码生成工具的内部实践和最佳实践 · 目标:软件工程师 · 洞见:Codex 加速编码 50%,但需验证输出以确保安全性 8. 企业中的 AI 七家前沿公司的经验教训 · 话题:部署挑战与成功因素 · 目标:企业顾问 · 洞见:共同主题是跨职能协作,ROI 平均 3-5 倍 9. 识别并规模化 AI 用例 早期采用者焦点 · 话题:用例筛选框架和优先级排序 · 目标:创新团队 · 洞见:聚焦高影响、低复杂场景,可快速实现价值 10. 构建 AI 智能体的实用指南 探讨智能体对员工的作用 · 话题:智能体架构、任务自动化(如多步决策链)和劳动力影响 · 目标:开发与运营团队 · 洞见:智能体可处理 80% 重复任务,提升效率,但需伦理监控以防偏见 11. ChatGPT Business SMB 指南 中小型企业实用提示 · 话题:现成示例,如销售脚本和内容生成 · 目标:SMB 所有者 · 洞见:即插即用模板,启动成本低,转化率提升 20%-40%
跟 Claude 学习怎么写 Prompt 来提升 UI 设计质量 在 Claude 博客「Improving frontend design through Skills」中,详细讲述了如何利用 Claude Skills,突破 AI 生成前端代码时普遍存在的“平庸化”问题,构建出更具个性和专业感的用户界面,其中「Prompting for better frontend output」这个段落,值得重新看几遍,和 Claude 学习如何写出更能提升设计智能的提示词。 1. 底层逻辑:对抗“统计学上的平庸” · 现状:LLM 是基于概率预测下一个 Token 的。在海量的训练数据中,设计得平平无奇的网页数量远多于获得 Awwwards 大奖的网页。因此,当你要求智能体“写一个网页”时,它在概率上会自然滑向那个“最拥挤、最平庸的平均值”。 · Prompt 的战略意义:Prompt 的本质不仅仅是下指令,而是“通过约束条件,强制将智能体的预测分布推向边缘”。 · 你不能只说“要好看”,因为智能体对“好看”的定义是基于大众平均水平的。 · 你必须提供“离群值特征”,比如指定极简主义(Minimalism)、野兽派(Brutalism)或特定的艺术风格,迫使智能体放弃那些高概率但无聊的默认选择。 2. 视觉工程化:将“好品味”翻译成具体指令 详细拆解了如何将模糊的“设计感”转化为智能体可执行的代码逻辑。高水准的 Prompt 需要覆盖以下具体的工程维度: A. 排版系统 (Typography):从“能看”到“有性格” · 默认陷阱:智能体习惯使用单一字体族(如全站 Sans-serif),这很安全,但缺乏层次。 · 进阶 Prompt 策略: · 强制字体配对:明确要求“Header 使用衬线体(Serif)以传递权威感/优雅感,Body 使用无衬线体(Sans)以保证易读性,Code/Data 使用等宽字体(Mono)以体现科技感”。 · 微调参数:不仅选字体,还要控制字间距(Tracking)和行高(Leading)。例如,要求智能体“在标题上使用紧凑的字间距(tracking-tight),在正文使用宽松的行高(leading-relaxed)”,这种细节是区分业余与专业的关键。 B. 空间与布局 (Layout & Spacing):用留白构建奢华感 · 默认陷阱:AI 生成的界面往往“太挤了”。它试图在有限空间内塞入所有信息,导致界面像 90 年代的门户网站。 · 进阶 Prompt 策略: · 留白即功能:指示智能体“将留白(Whitespace)视为一种设计元素,而不仅是间隔”。要求使用夸张的 Padding(如 Tailwind 的 p-12 或 py-24)。 · 网格的破坏与重建:鼓励智能体使用不对称布局(Asymmetrical Layouts)或错位网格(Bento Grids),打破死板的 12 栅格系统,创造视觉动线。 C. 色彩与深度 (Color & Depth):拒绝纯色块 · 默认陷阱:直接使用高饱和度的纯色(如 # 0000FF)或者完全扁平化的设计。 · 进阶 Prompt 策略: · 物理质感:不要只定义颜色,要定义“光”。要求智能体使用微妙的渐变(Subtle Gradients)、**内阴影(Inner Shadows)和背景模糊(Backdrop Blur)**来模拟毛玻璃、金属或纸张的质感。 · 语义化色彩:定义一套基于 HSL 或 OKLCH 的色板,并明确用途(Primary, Muted, Accent, Destructive),确保配色和谐且符合无障碍标准。 3. 感性维度的参数化:Vibes 的精准描述 文章中最具启发性的部分——如何让不懂审美的代码生成器理解“Vibe”。 · 问题:如果你告诉智能体“做一个复古网站”,它可能会做出一堆乱七八糟的像素画。 · 解决方案:你需要将形容词“翻译”为 CSS 属性的集合。文章提倡在 Skill 中建立一种“风格词典”: · 想要“赛博朋克”? Prompt 应包含:霓虹绿/粉配色 + 黑色背景 + 故障艺术(Glitch)动效 + 等宽字体。 · 想要“高端SaaS”? Prompt 应包含:深蓝/灰配色 + Inter字体 + 极细的边框(1px borders) + 微交互(Micro-interactions)。 · 智能体的角色转变:通过这种方式,智能体不再是一个单纯的“程序员”,而是一个配备了特定风格指南(Style Guide)的“UI 设计师”。 4. 为什么这不仅是“提示词”,而是“Skill”? 文章强调将这些 Prompt 封装为 Skill,这意味着: · 复用性:你不需要每次都写几百字的排版要求。 · 上下文隔离:这个 Skill 就像是一个独立的插件。当需要写前端时,智能体调用这个 Skill,它的“大脑”中就临时加载了由 Anthropic 专家精炼过的 400 个 Token 的设计知识库。 · 工具链整合:这个 Skill 还可以强制绑定特定的技术栈(如 React + Tailwind + Lucide Icons + Shadcn UI)。这意味着智能体在设计时,已经知道它有这些高质量的组件库可以调用,从而避免了“重复造轮子”带来的粗糙感。 总结 深入来看,这揭示了 AI 辅助开发的未来方向:我们不再直接为最终结果编码,而是在为“产生结果的过程”编码。 通过精心设计的 Prompt 和 Skills,我们将人类的高级审美偏好“注入”到智能体的生成过程中,从而打破概率的诅咒,让 AI 产出既有工业级代码质量,又具备人类设计师灵魂的界面。 博客地址
OpenAI 官方指南:构建 AI 原生工程团队 2025年软件开发已正式进入“智能体主导执行、人类负责审阅与决策”的时代。整个软件开发生命周期的 80% 重复性工作都可以也应该交给编码智能体完成,工程师的价值正在快速从“写代码”迁移到“定义问题、设计系统、把握方向”。 能力演进时间表 · 早期:只能补全几行代码,推理时间仅30秒左右。 · 现在:领先模型已能持续推理2小时以上,每7个月左右能力翻倍,可一次性理解整个代码库、调用工具、自动跑测试、自我纠错。 · 结果:从规划到部署的完整特性,智能体已能独立交付,人类只需审阅和做最终决策。 · OpenAI 内部真实数据:原本需要几周的任务,现在几天即可完成,工程师把大量文档、依赖维护、特性旗标清理等重复性工作完全交给 Codex 智能体。 软件开发五大阶段的彻底重构 1. Plan(规划阶段) · 传统痛点:需求模糊、依赖不清、反复开会对齐。 · 现在做法:把产品规格、票据扔给智能体,它会自动拆解成子任务、标记模糊点、找出所有依赖文件、预估实现难度、指出潜在风险。 · 工程师真正要做的事:决定优先级、取舍范围、最终拍板故事点数。 · 立刻可做:找出团队里最常需要“代码对齐”的场景(如新特性范围讨论),先让智能体自动补充上下文和依赖分析。 2. Design(设计阶段) · 传统痛点:Figma 转代码慢、反复返工、很难快速试多个方案。 · 现在做法:多模态智能体直接把设计稿(Figma/图片)转成100%符合现有设计系统的高保真 React/Vue/SwiftUI 组件,10秒内出3-5个不同实现方案。 · 工程师真正要做的事:决定整体设计语言、交互模式、组件复用策略。 · 立刻可做:把组件库通过 MCP 暴露给智能体,建立“设计图→组件→代码”一键链路。 3. Build(编码阶段) · 传统痛点:大量样板代码、找旧实现、上下文频繁切换、编译错来回修。 · 现在做法:智能体一次性生成完整特性,包括后端 API、数据库迁移、前端页面、错误处理、日志、单元测试、README,全程跨几十个文件保持一致,边写边自动修复编译错误。 · 工程师真正要做的事:只关注架构影响、安全、性能、可维护性等高层问题。 · 立刻可做:从小而规格明确的任务开始;要求智能体先输出 PLAN. md 再动手;建立 AGENTS. md 文件教它团队的独特规范和测试流程。 4. Test(测试阶段) · 传统痛点:测试永远写不完、覆盖率被牺牲、边缘 case 容易漏。 · 现在做法:智能体根据产品规格自动生成测试用例,尤其擅长找出人类容易忽略的极端情况;代码改动后自动更新测试。 · 工程师真正要做的事:确保测试真实反映产品意图,杜绝“假测试”(看起来通过但没测到点)。 · 立刻可做:让智能体在独立会话中专门生成测试;人类严格审查;确保智能体有权限完整运行测试套件。 5. Review & Deploy(代码审查与部署阶段) · 传统痛点:审查量巨大、容易漏安全或性能问题。 · 现在做法:智能体作为第一轮审查者,检查风格、一致性、基本安全漏洞;部署流水线中自动修复小问题。 · 工程师真正要做的事:只看高层设计、跨团队影响、最终上线决策。 · 趋势:人类代码审查量将持续下降到现在的10%-20%。 新的核心工作流:Delegate → Review → Own · Delegate(委托):所有明确、可验证、重复性高的任务全部扔给智能体。 · Review(审阅):人类快速检查输出,修正微妙错误,确保符合团队规范。 · Own(拥有):人类永远保留三件事——系统级洞察、创造性决策、战略方向。 工程师每天的时间分配正在发生巨变 · 过去:70%写代码 + 20%开会 + 10%思考 · 现在:10%写代码 + 20%审阅智能体输出 + 70%定义需求、设计系统、思考长期方向 给工程 Leader 的 5 条立即可执行建议 1. 从团队最痛苦的阶段开始(大多数团队是 Build 和 Test) 2. 先用现成工具(GitHub Copilot 最新版、Cursor、Codex CLI、o3/o4 等)跑小任务,快速积累信任 3. 立刻创建两份神器文档: · AGENTS. md(教智能体了解你们代码库的独特习惯) · 每张票据强制要求先写 PLAN. md(智能体最爱清晰的计划) 4. 把测试覆盖率当作“给智能体下命令的语言”——测试越好,智能体越靠谱。 5. 最重要:完成文化升级——把“亲自写代码”视为可以外包的机械劳动,把“清晰定义要什么、为什么、做到多好”视为工程师的真正核心竞争力。 OpenAI 官方指南: