#AI软件工程

indigo
7小时前
即便是最强大的模型,表现也差强人意!当把测试基准集换成 SWE-BENCH PRO 之后,得分直接从 Verified 的 70% 下滑到了不到 25%。因为 Verified 测试集数据污染严重,AI 可能在训练中“背会”了答案;然后任务过于简单,与现实中软件工程师面临的复杂挑战严重脱节。PRO 测试集针对性的做了提升,而且还新增了企业级、长周期的任务👀 - 公开集(Public Set):表现最好的是 OpenAI GPT-5,解决了 23.3% 的问题,紧随其后的是 Claude Opus 4.1,解决率 22.7%; - 商业集(Commercial Set):成绩进一步下滑,表明企业级代码的复杂度更高。Claude Opus 4.1 以 17.8% 的解决率位居第一,GPT-5 为 14.9%; 三个核心发现 1. 顶尖模型的“思维瓶颈”:像 Claude Opus 4.1 和 GPT-5 这类最强大的模型,失败的主要原因在于“解决方案错误”(Wrong Solution)。这意味着它们能熟练地使用工具、编写语法正确的代码,但在最关键的“如何正确解决问题”这个核心逻辑层面“翻车”了; 2. 中小型模型的“基础不牢”:相比之下,一些较小的开源模型(如 Qwen3 32B)则更多地暴露了在语法、格式和工具使用上的问题。它们往往在任务执行的早期阶段就因基本操作失误而失败; 3. 不同模型的“个性化”弱点:例如,Sonnet 4 的主要问题是上下文窗口管理不善(Context Overflow),而 Gemini 2.5 的失败原因则较为均衡地分布在工具错误、语法错误和方案错误上。 所有模型普遍在 Python 和 Go 语言的任务上表现更好,而在 JavaScript/TypeScript 上表现不佳。 这意味着,当前最顶尖的 AI 距离成为一名可靠的、能独立解决复杂问题的软件工程师还有非常遥远的距离。我们在简单任务上看到的成功具有一定的“欺骗性”。AI 软件工程的瓶颈正在从“怎么写代码”转变为“如何思考问题”,对复杂逻辑的深刻理解是下一代 AI Agent 必须跨越的鸿沟🤔