即便是最强大的模型，表现也差强人意！当把测试基准集换成 SWE-BENCH PRO 之后，得分直接从 Verified 的 70% 下滑到了不到 25%。因为 Verified 测试集数据污染严重，AI 可能在训练中“背会”了答案；然后任务过于简单，与现实中软件工程师面临的复杂挑战严重脱节。PRO 测试集针对性的做了提升，而且还新增了企业级、长周期的任务👀 - 公开集（Public Set）：表

#AI软件工程 #GPT-5 #Claude Opus #SWE-BENCH PRO #思维瓶颈

相关新闻

KK.aWSB

1天前

千亿大模型集体翻车，整个AI圈傻了。 3月25日，谷歌悄悄发布了ARC-AGI-3基准测试。 GPT-5：0.26% Claude：0.25% Grok：0%，直接交白卷人类呢？旧金山街头随便找的测试者，100%满分。这测试没规则、没目标、没说明。扔进一个陌生环境，自己摸索，自己推理。人类天生会的事，AI完全不会。

Y11

2周前

Anthropic 的主力 AI 模型 Claude（Opus 和 Sonnet 4.6 版本）现在变得超级“能装”了，不仅能一次性读完 75 万字的内容，而且价格完全没涨，处理精准度还吊打了现在的 GPT-5 和 Gemini。以下是几个核心亮点：记性大增：现在 Claude 可以支持 100 万个 token（约等于 75 万个汉字/英文单词）。这意味着你可以直接扔给

卫斯理

4个月前

提供稳定不跑路有售后且优惠的 ChatGPT team的车位需要发送消息，价格十分优惠数量有限，先到先得🎉🎉🎉 * 无限制 GPT-5 *每周 200 次 GPT-5 thinking *有限次数的GPT-5 Pro * 支持codex: cli/vscode

吕立青_JimmyLv (闭关ing) 2𐃏25

4个月前

Cursor 现在可以便宜用 Claude Opus 4.5，Sonnet 的价格，真香！以及免费使用 Composer 1 模型，速度贼快，大家快冲～另外强烈建议安装 Claude Code 和 Codex 插件，这是我目前最佳的模型调度一体化 GUI。

meng shao

4个月前

OpenAI「Guides and resources」这个网址建议大家收藏起来： OpenAI 给开发者、初创企业和大型企业的「指南和资源」，现在有 11 个内容，覆盖从工程实践到领导力决策的 AI 应用，重点强调“人类+AI”协作，避免过度依赖模型。 1. 构建 AI 原生工程团队探讨如何组建以 AI 驱动的开发团队。 · 关键话题：编码智能体加速软件开发生命周期（如从原型到生产）