时政
财经
科技
虚拟货币
其他
登录
#智能体
关注
阿橡
1个月前
1.目前计算机在人工智能软件就是chatgpt这类的智能体设计上要突破的瓶颈是什么? 2.文科生需要培养哪些方面的能力使得应智能产品的使用发挥最大功力。 这是这个朋友的问题。 我想她应该不太清楚大模型和智能体的区别。。。 请教各位老师🙏🏻大家认为她的第二个问题的答案是什么呢?
#人工智能
#ChatGPT
#智能体
#文科生
#能力培养
分享
评论 0
0
素人极客-Amateur Geek
1个月前
refly智能体平台已经准备好,下周上线. 课程就直接涨价了。 如果有需要各种智能体, 可以在这条留言,能做出来的我一并做出来, 使用平台算力,按条计算。
懒猫家族新成员亮相,AI算力舱引发热议!· 143 条信息
#refly智能体平台
#上线
#涨价
#智能体
#算力
分享
评论 0
0
meng shao
1个月前
OpenAI 官方指南:构建 AI 原生工程团队 2025年软件开发已正式进入“智能体主导执行、人类负责审阅与决策”的时代。整个软件开发生命周期的 80% 重复性工作都可以也应该交给编码智能体完成,工程师的价值正在快速从“写代码”迁移到“定义问题、设计系统、把握方向”。 能力演进时间表 · 早期:只能补全几行代码,推理时间仅30秒左右。 · 现在:领先模型已能持续推理2小时以上,每7个月左右能力翻倍,可一次性理解整个代码库、调用工具、自动跑测试、自我纠错。 · 结果:从规划到部署的完整特性,智能体已能独立交付,人类只需审阅和做最终决策。 · OpenAI 内部真实数据:原本需要几周的任务,现在几天即可完成,工程师把大量文档、依赖维护、特性旗标清理等重复性工作完全交给 Codex 智能体。 软件开发五大阶段的彻底重构 1. Plan(规划阶段) · 传统痛点:需求模糊、依赖不清、反复开会对齐。 · 现在做法:把产品规格、票据扔给智能体,它会自动拆解成子任务、标记模糊点、找出所有依赖文件、预估实现难度、指出潜在风险。 · 工程师真正要做的事:决定优先级、取舍范围、最终拍板故事点数。 · 立刻可做:找出团队里最常需要“代码对齐”的场景(如新特性范围讨论),先让智能体自动补充上下文和依赖分析。 2. Design(设计阶段) · 传统痛点:Figma 转代码慢、反复返工、很难快速试多个方案。 · 现在做法:多模态智能体直接把设计稿(Figma/图片)转成100%符合现有设计系统的高保真 React/Vue/SwiftUI 组件,10秒内出3-5个不同实现方案。 · 工程师真正要做的事:决定整体设计语言、交互模式、组件复用策略。 · 立刻可做:把组件库通过 MCP 暴露给智能体,建立“设计图→组件→代码”一键链路。 3. Build(编码阶段) · 传统痛点:大量样板代码、找旧实现、上下文频繁切换、编译错来回修。 · 现在做法:智能体一次性生成完整特性,包括后端 API、数据库迁移、前端页面、错误处理、日志、单元测试、README,全程跨几十个文件保持一致,边写边自动修复编译错误。 · 工程师真正要做的事:只关注架构影响、安全、性能、可维护性等高层问题。 · 立刻可做:从小而规格明确的任务开始;要求智能体先输出 PLAN. md 再动手;建立 AGENTS. md 文件教它团队的独特规范和测试流程。 4. Test(测试阶段) · 传统痛点:测试永远写不完、覆盖率被牺牲、边缘 case 容易漏。 · 现在做法:智能体根据产品规格自动生成测试用例,尤其擅长找出人类容易忽略的极端情况;代码改动后自动更新测试。 · 工程师真正要做的事:确保测试真实反映产品意图,杜绝“假测试”(看起来通过但没测到点)。 · 立刻可做:让智能体在独立会话中专门生成测试;人类严格审查;确保智能体有权限完整运行测试套件。 5. Review & Deploy(代码审查与部署阶段) · 传统痛点:审查量巨大、容易漏安全或性能问题。 · 现在做法:智能体作为第一轮审查者,检查风格、一致性、基本安全漏洞;部署流水线中自动修复小问题。 · 工程师真正要做的事:只看高层设计、跨团队影响、最终上线决策。 · 趋势:人类代码审查量将持续下降到现在的10%-20%。 新的核心工作流:Delegate → Review → Own · Delegate(委托):所有明确、可验证、重复性高的任务全部扔给智能体。 · Review(审阅):人类快速检查输出,修正微妙错误,确保符合团队规范。 · Own(拥有):人类永远保留三件事——系统级洞察、创造性决策、战略方向。 工程师每天的时间分配正在发生巨变 · 过去:70%写代码 + 20%开会 + 10%思考 · 现在:10%写代码 + 20%审阅智能体输出 + 70%定义需求、设计系统、思考长期方向 给工程 Leader 的 5 条立即可执行建议 1. 从团队最痛苦的阶段开始(大多数团队是 Build 和 Test) 2. 先用现成工具(GitHub Copilot 最新版、Cursor、Codex CLI、o3/o4 等)跑小任务,快速积累信任 3. 立刻创建两份神器文档: · AGENTS. md(教智能体了解你们代码库的独特习惯) · 每张票据强制要求先写 PLAN. md(智能体最爱清晰的计划) 4. 把测试覆盖率当作“给智能体下命令的语言”——测试越好,智能体越靠谱。 5. 最重要:完成文化升级——把“亲自写代码”视为可以外包的机械劳动,把“清晰定义要什么、为什么、做到多好”视为工程师的真正核心竞争力。 OpenAI 官方指南:
Claude Skills系统发布引发AI行业新变革· 66 条信息
#OpenAI
#AI原生工程团队
#软件开发自动化
#智能体
#工程师转型
分享
评论 0
0
Mr Panda
1个月前
现在所有 AI 智能体产品,其实都不怎么赚钱。 但每家公司都在疯狂内卷,只为了抢一个位置——未来时代的“入口”。 为什么? 因为 AI 产品和过去所有产品都不一样: 以前:你在某个赛道赢了,你就在这个赛道通吃。 现在:AI 是跨赛道、跨行业的超级入口。只要你赢了入口,你就能通吃所有行业。 AI 的本质不是一个工具,而是未来所有服务的超级操作系统。 谁掌握了“入口”,谁就掌握了用户的注意力、数据、决策链路、工作流……甚至生活方式。 现在看这些还在烧钱、还在卷能力、还在抢用户的团队,你会发现—— 他们不是在卷产品,他们在卷未来的“主宰权”。 这才是这场战争真正的底层逻辑。
#AI
#智能体
#入口
#未来
#主宰权
分享
评论 0
0
dontbesilent
1个月前
如果一个岗位被定义为特定角色的智能体,就一定会失业 如果一个岗位被定义为给人类或者 AI 制定工作流,就不会失业
#AI失业
#智能体
#工作流
#AI工作流
#岗位定义
分享
评论 0
0
dontbesilent
1个月前
国内这些搞什么 IP 定位智能体的人没有意识到 他们是用 AI 做了一个诈骗业务 这个业务不属于 AI 赛道,是属于诈骗赛道 还讨论什么模型吞噬应用,什么 claude code 如何如何 讨论个鸡毛呀 干掉你们的不是 claude,是警察
#IP定位
#智能体
#AI诈骗
#警察
#负面
分享
评论 0
0
Mr Panda
1个月前
从2022底开始追热点, 一直追到2025年底, 太累了, 去研究个我的专属智能体来去追热点吧, 让他每天给我发一份报告。
澎湃AI新闻合辑:未来科技与社会热点交锋· 112 条信息
#热点
#智能体
#报告
#2022底-2025底
#疲惫
分享
评论 0
0
Mr Panda
1个月前
大量的跟ChatGP T 交流之后, ChatGPT 越来越像我, 我在虚拟世界投影, 大概会从ChatGPT 开始。 所以,未来如果ChatGPT 开始向社交平台转变,那么我的数字分身的智能体就会成形, 不远的将来, 我的数字分身智能体我会替代我在X上发推。
#ChatGPT
#数字分身
#社交平台
#智能体
#X平台
分享
评论 0
0
Gorden Sun
1个月前
这个智能体为什么这么厉害?玩原神玩的 Lumine:通过原神游戏数据训练的智能体 先用1731小时的人类游戏数据预训练,学会根据游戏画面输出键鼠操作;再用200小时的指令跟随数据,将语言和操作对应;最后用15小时的推理数据,让模型具备灵活思考能力。 能独立完成原神主线任务,且具有泛化能力,也能玩崩铁、鸣潮等游戏,会战斗、会解谜、会操作UI界面。 项目地址:
#原神
#智能体
#游戏AI
#Lumine
#游戏数据训练
分享
评论 0
0
素人极客-Amateur Geek
1个月前
只提智能体,不提提示词, 效率熬不到结果。 没有廉价的智能, 只有廉价的产品。 所以当下的成长就两件事: 用准确的AI提示让自己学到不知道的。 用知道的成为未来人生的变量。
#智能体
#AI提示
#效率
#学习
#未来
分享
评论 0
0
dontbesilent
1个月前
我用 AI 提示词精准复刻了一个人的意识形态和哲学立场 可以让这个智能体无论怎么输出,看起来都像是这个人写出来的文字 然后我就想让这个智能体再写一篇文章,来讲一下自己的意识形态是什么 这个智能体无论如何都写不出来 这个时候我突然意识到,这个智能体所去模仿的那个人,以他的学识和阅历,是完全不可能搞清楚自己的意识形态的 就是因为写不出来,才代表真的像
#AI
#意识形态
#哲学立场
#智能体
#复刻
分享
评论 0
0
meng shao
2个月前
最近在选择自己开发的 AI 工具栈,有一个感觉:Claude Code/Codex 等 AI Agent 的整体规划能力、架构能力都很不错,不过用来做前端开发,总感觉有些地方不太用得上力,比如设计团队的 Figma 设计稿还原,比如基于前端组件库和 CSS 样式来新增和修改产品设计。可能把 Spec 和 Plan、Skills、Agents md 等编写到位,多次迭代后,也能达到满意的结果。 不过感觉有些大炮打蚊子了,token 成本也是没必要的高! 最近几天试用 Kombai 这个前端专精智能体,在前端开发方面值得试试,它通过领域优化(如内置 30+ 库 RAG 和任务特定规划),自研的 Figma 设计稿引擎等,直接生成高保真输出——少编译错、代码审查通过率高,还附带浏览器预览。用户能控制上下文,确保适配你的栈。 基准测试(200+ 任务)显示,它在 UI 实现和错误率上超通用智能体 2 倍左右,特别适合中大型组件。试了几个项目,确实高效,但也需熟悉其规划模式。
#AI工具栈
#前端开发
#Kombai
#Figma设计稿
#智能体
分享
评论 0
0
九原客
2个月前
画了一个简单的专利写作智能体的架构,供参考。用Claude Code 等实现也很简单,就用 Agent-SubAgent,写提示词,提示词可以让 Claude 帮你写。
Claude Skills系统发布引发AI行业新变革· 66 条信息
#专利写作
#智能体
#Claude Code
#Agent-SubAgent
#提示词
分享
评论 0
0
ginobefun
2个月前
《智能体设计模式》第六章「规划模式」完成翻译,目前已翻译章节: 00 - 前言部分 01 - 第一章:提示链模式 02 - 第二章:路由模式 03 - 第三章:并行模式 04 - 第四章:反思模式 05 - 第五章:工具使用模式 06 - 第六章:规划模式 规划模式让智能体具备前瞻性思维能力,能够将复杂任务拆解为更小且可管理的步骤,并制定实现预期结果的策略。通过规划能力,智能体不再只是对眼前输入作出反应,而是能够自主规划从初始状态到目标状态的完整路径。这里为大家梳理几个关键要点: 1. 核心理念:从被动响应到主动规划 规划模式的核心在于建立「理解目标 → 制定计划 → 执行步骤 → 灵活调整」的智能流程,让智能体具备战略性、目标导向的执行能力。 - 传统模式的局限:基础智能体只能对眼前输入作出反应,缺乏处理复杂多步骤任务的能力,无法将高层次目标拆解为可执行的子任务。 - 规划模式的价值:智能体能够接收高层次目标并自主拆解为有序的执行步骤,在遇到阻碍时灵活调整路线,从而有效处理包含多个步骤和相互依赖的复杂任务。 2. 规划的关键特征 规划模式通过以下特征实现智能化的任务执行: - 目标驱动:接收高层次的目标声明(做什么)而非具体指令(如何做」,由智能体自主决定实现路径。 - 即时生成:计划不是预先存在的,而是根据当前状况和目标要求即时生成的。 - 灵活应变:初步计划只是出发点,智能体能够接纳新信息并在遇到阻碍时动态调整策略。 - 结构化分解:将复杂目标拆解为一系列更小、可执行的步骤或子目标,按逻辑顺序处理依赖关系。 3. 典型应用场景 规划模式在四大领域展现出核心价值: - 流程自动化:编排复杂工作流,如新员工入职流程,包括创建账户、分配培训、部门协调等有序子任务。 - 机器人与自主导航:进行状态空间遍历,生成从起始状态到目标状态的最优路径,同时遵守环境约束。 - 结构化信息整合:生成研究报告等复杂输出,规划包含信息收集、数据归纳、内容结构化、迭代打磨等阶段。 - 多步骤问题解决:制定并对系统化流程进行诊断、实施解决方案,并在必要时升级处理。 4. 实现框架与特点 - CrewAI:通过定义明确的智能体角色和任务,支持先规划后执行的工作流,适合结构化的多步骤任务。 - Google 深度研究:利用多步骤动态迭代流程,把用户提示拆解为研究计划,循环执行搜索与分析,生成带引用的结构化报告。 - OpenAI 深度研究接口:提供编程化控制能力,支持 MCP 协议连接私有知识库,展示完整的中间步骤(推理、搜索、代码执行)。 5. 使用时机与权衡 当任务复杂度超出单一操作范围时,应当使用规划模式,但需要权衡灵活性与可预测性: - 适用场景:任务需要多个相互依赖的步骤才能完成;「如何做」的方案需要探索而非已经明确;需要自动化处理复杂的工作流程;需要生成全面、综合的结果。 - 权衡考量:当问题的解决方法已经清楚且可重复时,固定流程比动态规划更有效;规划增加灵活性的同时也引入了不确定性;需要在自主性和可预测性之间找到平衡。 - 核心价值:将智能体从简单的被动响应者提升为战略性、目标导向的执行者,能够管理复杂流程并产出全面综合的结果。 点击项目链接 可双语对照阅读,跟踪最新翻译进展,也欢迎加入交流群一起阅读讨论、反馈问题或随个 Star ~
#智能体
#规划模式
#任务拆解
#自主规划
#深度研究
分享
评论 0
0
Gorden Sun
2个月前
DeepAnalyze:数据分析智能体 能自主完成一系列数据任务,包括:准备、分析、建模、可视化、生成报告。 Github:
谷歌Deep Research:AI操作系统雏形?· 145 条信息
#DeepAnalyze
#数据分析
#智能体
#GitHub
#自动化
分享
评论 0
0
Y11
2个月前
最近接触AI时,我常被“Agent”和“Assistant”这两个词绕进去。 后来想明白了,这就像我们身边的两种工具:一种是“助手”,一种是“能自己干活的智能体”。 先说说Assistant,它更像我们日常用的语音助手,比如手机里的Siri、小爱同学。 你问它“今天天气怎么样”,它就直接回答;你说“设置个明天早上8点的闹钟”,它就照做。这种工具的核心是“被动响应”——必须等你发出明确指令,它才会行动,而且做的事情都是提前设定好的,不会自己“多想一步”。 就像一个熟练的助理,你把任务写清楚,它就按流程完成,不会主动改变计划。 而Agent就不一样了。它更像一个“能自己规划的小团队”。比如你让它“帮我买一杯咖啡”,它不会直接打开外卖软件下单,而是会先拆解问题:需要确定附近有哪些咖啡店、哪家有优惠、当前配送时间够不够、钱够不够付……然后一步步调用工具去实现。它有自己的“思考能力”,能根据实际情况调整策略,甚至在遇到突发问题时(比如某家店突然关门),还能临时换一家。这种自主性让它能处理更复杂的事情,就像一个有经验的项目负责人,能把大目标拆成小步骤,自己推进完成。 我总结了一下两者的关键区别:Assistant是“执行者”,Agent是“决策者+执行者”。打个比方,对安全团队来说(这是我最近关注的领域),P5级别的安全工程师可能就像Assistant,需要别人明确告诉他“检查服务器漏洞”“处理某个安全事件”,他才动手;而P6级别的工程师就开始接近Agent了,能自己拆解问题,比如从“防范勒索病毒”这个大目标,分解出“加固终端防护”“检查备份策略”“培训员工安全意识”等多个小任务,并且能根据实际情况调整优先级。 再往远想,2023年AI技术已经给智能体装上了“大脑”(推理能力)、“眼睛”(视觉识别)、“耳朵”(语音处理)和“记忆力”(数据存储)。2024年,大家可能会看到它们长出“身体”——也就是“具身能力”,比如能自己操作设备、在真实环境中移动。 至于更高级的P7级安全工程师,可能需要智能体具备“自我进化”能力:比如自己发现工作流程中的漏洞,主动优化方法,甚至在没有人工指导的情况下,通过学习新的攻击手段来提升防护能力。这种能力现在看还比较遥远,但技术发展的速度,说不定哪天就实现了。 说到底,理解这两个概念,其实是在看AI从“被动服务”到“主动创造”的进化。就像从用计算器到用能自己解题的数学软件,区别不在于“算得快”,而在于“能不能自己搞懂怎么算”。
#AI Agent
#AI assistant
#智能体
#自主决策
#安全工程师
分享
评论 0
0
YL (Yucheng Liu)
2个月前
在AI领域,未来几年唯一重要的事情可能就是「上下文工程」(Context Engineering)。如何从嘈杂、非结构化的真实世界对话中精准提取、管理和排序上下文,再喂给LLM,是决定AI智能体表现的关键。这远比卷模型本身更有价值。
#上下文工程
#AI领域
#LLM
#智能体
#非结构化数据
分享
评论 0
0
Gorden Sun
2个月前
《智能体设计模式》 谷歌工程师开源的Agent设计书,内含各种模式的流程图、讲解、代码,应该是目前最值得读的Agent书籍。 电子书地址:
#智能体
#Agent设计
#谷歌工程师
#开源
#电子书
分享
评论 0
0
ginobefun
2个月前
《智能体设计模式》中文翻译计划启动 接下来的一周,我将通过 AI 初次翻译 → AI 交叉评审 → 人工精读优化的方式来翻译这本书,所有翻译内容将持续更新到开源项目: 本书由 Antonio Gulli 撰写、谷歌 Cloud AI 副总裁 Saurabh Tiwary 作序、高盛 CIO Marco Argenti 鼎力推荐,系统性地提炼出 21 个核心智能体设计模式,涵盖从提示链、工具使用到多智能体协作、自我修正等关键技术。更难得的是,本书的所有版税都将捐赠给救助儿童会,这是一份真正属于开发者社区的公益之作。 前言部分精华概览 今天完成了前言部分的人工校对,完成的翻译内容我已发布到公众号 ,这里为大家梳理几个关键要点: 1. 来自行业领袖的深度洞见 谷歌 Cloud AI 副总裁 Saurabh Tiwary 在序言中指出,我们正在从构建「仅能处理信息的模型」,迈向创造「能够推理、规划和行动的智能系统」。他将智能体开发比作在画布上创作,而设计模式正是这块画布上的基本笔触。 高盛 CIO Marco Argenti 则以「权力与责任」为题,分享了他对智能体技术的深刻思考。他坦言自己最初是怀疑的——早期模型「被优化的目标是追求可信度,而非正确性」。但推理模型的出现带来了质的飞跃,他第一次试用智能体编程工具时,「感受到了那种久违的、如魔法般的火花」。 更重要的是,Marco 强调了专业精神和企业文化的重要性。在金融这样高风险的领域,智能体的失误代价巨大。他提出的三大原则值得所有开发者铭记: - 为使命而构建:确保每个智能体都始于对客户问题的清晰理解 - 洞见未来,防患未然:预见失败模式,设计具有韧性的系统 - 启迪信任,不负所托:对方法保持透明,对结果负责 2. 什么是智能体系统? 书中给出了清晰的定义:智能体系统是一种能够感知环境、根据目标做出决策、并自主执行行动的计算实体。 不同于遵循固定脚本的传统软件,智能体系统具备以下核心特征: - 自主性:无需持续人工监督即可行动 - 主动性:能主动发起行动以实现目标 - 反应性:能有效应对环境变化 - 工具使用:与外部 API、数据库或服务交互 - 记忆:在多次交互中保留信息 - 通信:与用户、系统或其他智能体交互 3. 智能体的演进层级 书中提出了一个实用的智能体分级框架: - 0 级:核心推理引擎 - 大语言模型本身,仅基于预训练知识响应,无法感知当前事件。 - 1 级:连接外部的问题解决者 - 能够使用外部工具来解决超出预训练知识范围的问题。这是 RAG 技术的典型应用场景。 - 2 级:战略性问题解决者 - 具备战略规划、主动协助和自我提升能力。核心赋能技能是提示工程和上下文工程。它能够战略性地选择、打包和管理最相关信息,确保高效决策。 - 3 级:协作型多智能体系统 - 这是一次重大范式转变:不再追求单一全能的超级智能体,而是转向复杂的、协作式的多智能体系统。就像人类组织一样,由不同专家组成的团队协同工作,通过劳动分工和协调产生强大的协同效应。 4. 智能体的未来:五大假设 书中对智能体的未来提出了五个极具前瞻性的假设: 假设 1:通用智能体的崛起 - 从狭隘专家演变为能高可靠性管理复杂、模糊、长期目标的通用型选手。替代路径是「乐高式」的小型语言模型组合。 假设 2:深度个性化与主动发现目标 - 智能体将成为深度个性化的主动合作伙伴,不仅响应指令,更能预测需求,主动发现和支持用户的潜在目标。 假设 3:具身化与物理世界交互 - 通过与机器人技术结合,智能体将挣脱数字束缚,在物理世界中运作,弥合数字智能与物理行动的鸿沟。 假设 4:智能体驱动的经济 - 高度自主的智能体将成为经济中的积极参与者,创造新的市场和商业模式,形成超高效率的「智能体经济」。 假设 5:目标驱动的、可演化的多智能体系统 - 系统能基于声明性目标自主运作,动态修改多智能体工作团队的拓扑结构,在架构层面和指令层面实现真正的自我演化。
#智能体
#设计模式
#AI翻译
#开源项目
#公益
分享
评论 0
0
dontbesilent
2个月前
智能体能赚钱的原因有三: 1、观众永远不可能知道什么是 system prompt,所以永远不可能理解智能体 2、那么无论是什么事情,只要你说智能体能实现,就有人信 3、真正的难度在于,用服从性测试,筛选出忠诚的傻子
#智能体
#赚钱
#system prompt
#服从性测试
#忠诚的傻子
分享
评论 0
0
Barret李靖
2个月前
软件开发里有一种叫 TDD(Test-Driven Development)的方式,简单讲,就是先写好测试用例,然后再写程序。每写一部分代码就立刻跑对应的测试,看能不能通过。能通过说明实现符合预期,不通过就说明有 bug。TDD 的好处在于,它让整个研发过程可验证、可回归,也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD,只不过测试用例变成了数据集(Dataset)。每一次模型迭代,本质上就是在跑新的单测(Benchmark)。MMLU 测知识广度,GSM8K 测逻辑推理,HumanEval 测编程能力,AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩,Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑,每一代 AI 都得交卷。 2025 可以说是智能体(Agent)元年,模型不再只靠会算、会说来评估,而是要能动手。要让一个 Agent 真正好用,光靠写 Prompt、加检索、拼上下文是不够的,它得能使用工具,能执行 Python、Shell、SQL,能感知状态、理解任务依赖,更要能在反馈中调整自己的行为。评估 Agent 好不好用,也就不能只看单轮问答,而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子,让 Agent 去修真实项目里的 Bug,看能否通过单测。OpenAI 的 MLE-bench 则更进一步,考察 Agent 在机器学习工程中的执行力,从读数据、清洗、编程、训练,到收集指标、分析再改进,形成一个完整的闭环。社区里还在探索更复杂的测试,比如 App-bench,看 Agent 是否能独立开发一个 Web 应用,从前端到后端再到部署上线;或者 Ops-bench,让它去处理运维任务,比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步,正在从“能思考”走向“能执行”。TDD 让软件工程可验证,而在 AI 世界,Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向,Benchmark 则刻画了行业标准与竞争格局。 未来的竞争,不再是谁的模型更聪明,而是谁的智能体更能干活。真正厉害的 AI,不一定语义最深、参数最多,而是那个能自己规划、自己验证、自己改进的 Agent。换句话说,AI 的未来不只是更聪明的脑子,而是更靠谱的手和脚,能想、能做、还能自己查错修正,这才是“用得上”的智能。
#AI
#tdd
#agent
#Benchmark
#智能体
分享
评论 0
0
dontbesilent
2个月前
用通义千问做智能体竟然不允许选择模型……太蠢了
#通义千问
#智能体
#模型选择
#负面评价
#产品体验
分享
评论 0
0
Y11
2个月前
前端开发 AI Agent 智能体,需要掌握哪些知识?
#前端开发
#AI Agent
#智能体
#知识
#技术
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2个月前
LLM的智能体现在interact as intelligence
#多智能体之争:Anthropic生态VS单智能体· 81 条信息
#LLM
#智能体
#人工智能
分享
评论 0
0
Barret李靖
2个月前
苏杰在 2010 年写了一本书,叫《人人都是产品经理》。十五年过去了,站在今天,或许也可以说,“人人都是程序员”,因为编程的范式正在发生深刻变化。 在神经网络出现之前(2012 年代表作是 AlexNet),可以称为编程 1.0 阶段。那时我们依赖确定性的逻辑来解决问题:a 就是 a,b 就是 b,程序的执行路径清晰、固定。 神经网络的出现带来了编程 2.0。通过在不同数据集上的训练,我们可以不断调整网络中每个节点的权重,进而影响最终输出。编程的任务变成了设定问题的起点与终点,神经网络则在“答题空间”里寻找解答。这个答案未必最优,但能有效解决问题。Karpathy 在 2017 年的《Software 2.0》里对此做了系统阐述。 而到了大模型时代,可以称之为编程 3.0。神经网络本身进化为“可编程体”,编程语言就是 Prompt。人们不再需要写复杂的函数和条件判断,而是通过自然语言来影响模型的推理过程。Prompt 之所以能改变输出,是因为它重塑了模型的“输入分布”,从而改变了注意力的聚焦点与解题路径。换句话说,Prompt 相当于在潜在的解题空间里拉起一条“轨道”,引导模型更快更准地落在某类答案上。 从“写死逻辑”到“训练权重”,再到“语言编程”,编程的本质正在从 控制计算机,转向 引导智能体。未来,当人人都能以语言驱动智能,编程将不再是少数人的技能,而会像写作一样,成为每个人的日常能力。
#编程未来
#人人都是程序员
#大模型时代
#prompt编程
#智能体
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞