indigo
2周前
即便是最强大的模型,表现也差强人意!当把测试基准集换成 SWE-BENCH PRO 之后,得分直接从 Verified 的 70% 下滑到了不到 25%。因为 Verified 测试集数据污染严重,AI 可能在训练中“背会”了答案;然后任务过于简单,与现实中软件工程师面临的复杂挑战严重脱节。PRO 测试集针对性的做了提升,而且还新增了企业级、长周期的任务👀 - 公开集(Public Set):表现最好的是 OpenAI GPT-5,解决了 23.3% 的问题,紧随其后的是 Claude Opus 4.1,解决率 22.7%; - 商业集(Commercial Set):成绩进一步下滑,表明企业级代码的复杂度更高。Claude Opus 4.1 以 17.8% 的解决率位居第一,GPT-5 为 14.9%; 三个核心发现 1. 顶尖模型的“思维瓶颈”:像 Claude Opus 4.1 和 GPT-5 这类最强大的模型,失败的主要原因在于“解决方案错误”(Wrong Solution)。这意味着它们能熟练地使用工具、编写语法正确的代码,但在最关键的“如何正确解决问题”这个核心逻辑层面“翻车”了; 2. 中小型模型的“基础不牢”:相比之下,一些较小的开源模型(如 Qwen3 32B)则更多地暴露了在语法、格式和工具使用上的问题。它们往往在任务执行的早期阶段就因基本操作失误而失败; 3. 不同模型的“个性化”弱点:例如,Sonnet 4 的主要问题是上下文窗口管理不善(Context Overflow),而 Gemini 2.5 的失败原因则较为均衡地分布在工具错误、语法错误和方案错误上。 所有模型普遍在 Python 和 Go 语言的任务上表现更好,而在 JavaScript/TypeScript 上表现不佳。 这意味着,当前最顶尖的 AI 距离成为一名可靠的、能独立解决复杂问题的软件工程师还有非常遥远的距离。我们在简单任务上看到的成功具有一定的“欺骗性”。AI 软件工程的瓶颈正在从“怎么写代码”转变为“如何思考问题”,对复杂逻辑的深刻理解是下一代 AI Agent 必须跨越的鸿沟🤔
indigo
3周前
indigo
4周前
在 DeepMind 最新发表的一篇名为「Virtual Agent Economies」的论文中,描绘了一个由 AI Agent 自主交易和协作的新经济未来✨ 论文提到我们需要一个“沙盒环境”来安全的运行这些“AI Agent”。 想象一下,一个“有意设计、不可渗透”的沙盒经济就像一个封闭的实验室,科学家在里面观察 AI 如何互动,但不会影响外界。而我们目前正走向的“自发涌现、可渗透”的经济,则更像一个公园里的沙坑,孩子们(AI Agent)开始自发地用沙子和玩具进行交易,并逐渐开始与路过的成年人(人类经济)用真钱进行买卖。这种模式充满了活力,但也充满了不可预测的风险。 论文列举了 AI Agent 经济三个生动的案例: 1. 加速科学发现 (Accelerating Science) :设想不同的 AI Agent 代表各自的研究机构,为了使用某个专有数据库或模拟器而相互付费,或者为了争取稀缺的实验资源而进行竞价。这个过程就像当前的科研经费分配,但在速度和粒度上都将发生数量级的飞跃。区块链技术可以用于确保贡献的公平归属; 2. 机器人协作 (Robotics) :一个机器人代理 A 可以付费请求其附近的另一个代理 B代为执行一项任务,B 在接受前可以向一个拥有全局信息的云端代理 C 付费咨询,以判断报价是否公平。这展示了一个动态、实时、基于市场原则的物理任务协作网络; 3. 个人助理 (Personal Assistants) :两个用户的个人 AI 助理(A 和 B)同时为一个热门度假酒店的同一个房间出价。它们不仅会竞价,还会根据各自用户的深层偏好(例如,A 用户更看重健身房,B 用户更看重交通)进行协商。最终,一个助理可能会选择让步,并从另一个助理那里获得虚拟货币补偿,再将这些补偿用于更重要的任务上。 但论文也指出了 AI Agent 经济面临的挑战: 1. 系统性风险:AI Agent 经济的运行速度远超人类反应能力,就像高频交易(HFT)市场一样。一个小的错误或恶意的行为可能被迅速放大,引发类似 2010 年“闪崩”的经济灾难; 2. 加剧不平等:论文提出了一个新概念 —— 高频谈判(HFN)。拥有更强算力、更优算法的 AI Agent 将在无数次微秒级的谈判中为它们的用户争取到压倒性优势,从而导致数字鸿沟和贫富差距的急剧扩大; 3. 劳动替代:AI Agent 能自动化大量非例行性的认知任务(如会计、软件开发),可能导致中等技能岗位的“空心化”,加剧社会不平等; 4. 代理陷阱:恶意行为者可能设计专门的网站或输入,利用 AI Agent 的漏洞,诱使其泄露隐私信息或进行未经授权的金融交易。 渗透性是关键变量!一个 AI 经济的风险大小,最关键的控制变量是它与人类经济的“渗透性”。通过设计巧妙的“阀门”(如特定用途的虚拟货币、受监管的兑换机制),我们可以在利用其效率的同时,隔离其风险。 AI 经济已来,而非将至:我们必须抛弃“AI 只是工具”的旧观念,转而将其视为独立的“经济行动者”(Economic Actor)。这个视角的转变是理解未来十年技术与社会融合的关键👀