#AI代理

Tz
1周前
应用已死,提示词万岁 就在今天,2025 年 8 月 7 日,OpenAI 即将揭晓其 GPT-5 的面纱。当整个科技界都在屏息以待参数与性能的飞跃时,一个更根本的问题却被喧嚣所掩盖。 我们每天稳定交互的手机应用,不足 10 个,但在数字坟场里,却沉睡着超过 500 万个僵尸程序。 GPT-5 和它的同类们带来的,不是对这个问题的修补,而是彻底的颠覆。 它们在暗示,我们或许不再需要“应用”了。 交互即应用。 一个更准确的说法是,通过“提示词”的直观交互正在吞噬我们所熟知的那个“应用”。 这不是又一场关于“小程序”或“超级应用”的陈旧辩论。那套逻辑依旧是在一个固定的壳里,做功能的加减法。而我们正在谈论的,是一种更彻底的瓦解:当用户的一个念头、一句指令,可以直接生成一个仅为此次交互而生的、用完即焚的临时界面与功能流时,我们不再需要那个预先下载、固化在屏幕上的图标了。 它不是被谋杀的。 是自杀。 长久以来,我们默认了一条产品开发的朝圣之路:市场调研、产品定义、UI/UX 设计、前后端开发、测试、上架、迭代……每一个环节都沉重而昂贵,也固化了一套我们与数字世界打交道的神圣仪式。 让我们用一个具体的念头来触碰这个未来: “帮我规划一个周末去苏格兰高地的三天自驾游,要避开游客密集区,预算 200 英镑,并且把每天的路线、住宿建议和打包清单发给我妻子。” 在旧世界,你需要打开地图应用、预订网站、点评APP、笔记软件,可能还要在社交媒体上问朋友,最后在微信或 WhatsApp 里手动整理、发送。你像一个数字世界的原始人,在不同的信息孤岛间艰难地迁徙、狩猎、采集。 而在“交互即应用”的图景里,你的这段话就是那个“应用”本身。AI 代理(Agent)会像一个顶级私人助理,在后台自行调用地图 API、天气数据、酒店接口、交通信息,然后为你生成一个一次性的、高度个人化的信息聚合页面。这个页面,就是专为你这个“周末计划”而生的临时应用。任务完成,它便消失。 要理解这种嬗变在专业领域的威力,Anthropic 对 Claude Artifacts 的一次演示,比任何宣言都更具说服力。在那个演示中,开发者输入一个简单的提示词,要求创建一个小游戏。Claude 不仅瞬间生成了代码,更关键的是,它在界面一侧同步渲染出一个功能齐全、可直接操作的“应用窗格”。开发者可以一边与这个临时生成的小游戏互动,一边用自然语言继续对它提出修改意见。 应用,在这里成了一种流体。它在对话中被塑造、被重构,完全服务于当下的意图。它不是产品,它是一次交互的回响。 这才是“交互即应用”的真正威力:它消解的不仅是 App 的外壳,更是完成任务的“过程”本身。 但这种“应用的液化”,也正在无声地重构权力与风险的版图。当交互的入口,从一个个壁垒分明的 App,收束到少数几个强大的 AI 代理上时,市场的天平就发生了根本性的倾斜。未来,开发者竞争的或许不再是应用商店的排名,而是谁的 API 能被 AI 代理更频繁、更优先地调用。这是一种从 to C 到 to AI 的范式转移。 与此同时,一个更切肤的风险在于,当“意图”可以直接转化为“执行”时,其中的模糊地带就成了新的攻击界面。一个心怀不轨的提示词,完全可以伪装成无害的请求。在传统的应用世界里,邮件App 和支付App 之间有着严格的权限沙盒。而在一个万物互联、API 皆可调用的 AI 代理面前,这堵墙正在变得千疮百孔。 当然,就此断言所有应用都将消亡,是一种技术上的傲慢。反对的声音会说,我们高估了效率,却低估了习惯与情感的引力——对一个精心设计的应用图标的依赖、对一套熟悉交互逻辑的品牌忠诚,不会轻易消失。 这不无道理。但我怀疑,这或许只属于我们这一代数字移民的怀旧。对于那些在提示词环境中长大的数字原住民而言,“忠于”一个 App,或许就像我们今天看待“忠于”一个浏览器主页一样,显得古怪而不必要。 一个更坚实的壁垒,在于信任与风险的边界。银行、医疗或工业控制这类严肃领域,其核心价值是可控、可靠与可追溯,而非即时便利。它们绝不会将自己的命运交给一个面目模糊的通用AI。毕竟,一个通用 AI 或许能帮你预订餐厅,但你大概不会想用它来操作一台核磁共振仪。 专业化与通用化之间的张力,依然存在。但对于那 90% 的、处理日常信息与服务的应用而言,它们的城墙正在倒塌。新发布的 GPT-5,以及它所有的竞争者,就像是盘旋在城外的巨兽,它们要改写的不是一城一地的得失,而是整片大陆的法则。 应用死了。 继承大位的,是提示词。 它把权杖交给了那个能直接与你对话的“上帝之手”,也催生了我们这些习惯了即时满足、用完即走的信徒。这看似是技术的胜利,背后却是人性的博弈——对掌控的渴望与对繁琐的厌倦,两者永恒的拉扯。 而你的下一个念头,也会不经他人之手,直接幻化成可交互的现实。 乌拉!
orange.ai
2个月前
做 Agent 研究的不要错过今天 Anthropic 发布的关于多智能体系统的文章。 ## 什么是多智能体系统? 多智能体系统是指由多个AI代理(如LLM)协同工作、并行使用工具来完成复杂任务的系统。 与单智能体相比,多智能体系统能同时探索多个方向,分工明确,提升效率和覆盖面,尤其适合开放性、动态变化的问题。 ## 为什么要用多智能体系统? 在过去的十万年里,人类个体的智能水平不断提升。 而在信息时代,随着人类集体智慧和协调能力的提升,人类社会的能力也呈指数增长。 Agent 也是类似的,即便是通用的智能体,在单独运作时也会遇到瓶颈,而 Agent 群体可以完成更多的任务。 在内部研究评估中,Claude Opus 4 为主导 Agent,Claude Sonnet 4 为子 Agent 的系统,比 Claude Opus 4 的单 Agent 性能高出 90.2% 。 举例来说,当被要求识别信息技术标准普尔 500 指数公司的所有董事会成员时,多 Agent 系统通过将其分解为子 Agent 的任务找到了正确答案,而单 Agent 系统则无法通过缓慢的顺序搜索找到答案。 ## 为什么多智能体系统是有效的? 搜索的本质就是压缩。从庞大的语料库中提炼 Insights。 但是语料过于庞大,压缩就会失真。 通过多智能体系统就能有效解决这一问题。 子 Agent 在自己的上下文窗口中进行压缩,自主地为主 Agent 提供多个方面的浓缩信息。 子 Agent 各有分工,使用不同的工具、提示词、探索路径,这样减少了路径依赖,实现多个独立方向的同时调查。 多 Agent 系统的有效是因为他们使用了足够多的 token 来解决问题。 在 BrowseComp 评估 (测试浏览智能体查找难以找到的信息能力),80%的性能差异都可以用 token 使用的多少来解释。15% 的差异可以用工具调用次数和模型选择来解释。 所以,多 Agent 是一种非常有效的架构。把工作分配给具有单独上下文窗口的智能体,以增加并行推理能力。 ## 多智能体系统的缺点 缺点嘛,就是贵。 智能体使用的 Token 一般是聊天的 4 倍。 而多智能体系统使用的 Token 一般那是聊天的 15 倍。 只有任务的价值足够高,才能对得起这么高的成本。 此外,一些任务并不适合多智能体系统,比如要求所有智能体共享上下文,或多智能体之间具有依赖关系的任务。 例如,大多数的编码任务,可并行化任务比较少。 ## 多智能体系统和 RAG 的区别是什么? 传统的方法使用 RAG,静态检索。获取与输入查询最相似的一组数据块,并用这些数据块进行回应。 而多智能体架构使用多步骤搜索,动态查找相关信息,结合新发现的信息,分析结果,并形成高质量的答案。 流程图展示了我们多智能体研究系统的完整工作流程。当用户提交查询时,系统会创建一个 LeadResearcher 智能体,并进入迭代研究流程。 LeadResearcher 首先仔细考虑方法并将其计划保存到内存中以保留上下文,因为如果上下文窗口超过 200,000 个标记,它将被截断,并且保留计划非常重要。 然后,它会创建专门的子代理(此处显示两个,但数量可任意),并执行特定的研究任务。每个子代理独立执行网络搜索,运用交叉思维评估工具结果,并将结果返回给首席研究员。首席研究员会综合这些结果,并决定是否需要进一步研究——如果需要,它可以创建更多子代理或改进其策略。 一旦收集到足够的信息,系统就会退出研究循环并将所有发现传递给 CitationAgent,后者处理文档和研究报告以确定引用的具体位置。 这确保所有声明都正确归属于其来源。最终的研究结果(包括引文)将返回给用户。
ginobefun
2个月前