indigo 0 关注者 关注 4小时前 即便是最强大的模型,表现也差强人意!当把测试基准集换成 SWE-BENCH PRO 之后,得分直接从 Verified 的 70% 下滑到了不到 25%。因为 Verified 测试集数据污染严重,AI 可能在训练中“背会”了答案;然后任务过于简单,与现实中软件工程师面临的复杂挑战严重脱节。PRO 测试集针对性的做了提升,而且还新增了企业级、长周期的任务👀 - 公开集(Public Set):表 #AI软件工程 #GPT-5 #Claude Opus #SWE-BENCH PRO #思维瓶颈 前往原网页查看