#AI软件工程

1个月前

即便是最强大的模型，表现也差强人意！当把测试基准集换成 SWE-BENCH PRO 之后，得分直接从 Verified 的 70% 下滑到了不到 25%。因为 Verified 测试集数据污染严重，AI 可能在训练中“背会”了答案；然后任务过于简单，与现实中软件工程师面临的复杂挑战严重脱节。PRO 测试集针对性的做了提升，而且还新增了企业级、长周期的任务👀 - 公开集（Public Set）：表现最好的是 OpenAI GPT-5，解决了 23.3% 的问题，紧随其后的是 Claude Opus 4.1，解决率 22.7%； - 商业集（Commercial Set）：成绩进一步下滑，表明企业级代码的复杂度更高。Claude Opus 4.1 以 17.8% 的解决率位居第一，GPT-5 为 14.9%；三个核心发现 1. 顶尖模型的“思维瓶颈”：像 Claude Opus 4.1 和 GPT-5 这类最强大的模型，失败的主要原因在于“解决方案错误”（Wrong Solution）。这意味着它们能熟练地使用工具、编写语法正确的代码，但在最关键的“如何正确解决问题”这个核心逻辑层面“翻车”了； 2. 中小型模型的“基础不牢”：相比之下，一些较小的开源模型（如 Qwen3 32B）则更多地暴露了在语法、格式和工具使用上的问题。它们往往在任务执行的早期阶段就因基本操作失误而失败； 3. 不同模型的“个性化”弱点：例如，Sonnet 4 的主要问题是上下文窗口管理不善（Context Overflow），而 Gemini 2.5 的失败原因则较为均衡地分布在工具错误、语法错误和方案错误上。所有模型普遍在 Python 和 Go 语言的任务上表现更好，而在 JavaScript/TypeScript 上表现不佳。这意味着，当前最顶尖的 AI 距离成为一名可靠的、能独立解决复杂问题的软件工程师还有非常遥远的距离。我们在简单任务上看到的成功具有一定的“欺骗性”。AI 软件工程的瓶颈正在从“怎么写代码”转变为“如何思考问题”，对复杂逻辑的深刻理解是下一代 AI Agent 必须跨越的鸿沟🤔

#AI软件工程 #GPT-5 #Claude Opus #SWE-BENCH PRO #思维瓶颈