时政
财经
科技
虚拟货币
其他
登录
#编程基准
关注
sitin
3小时前
SWE-bench 跑分高不等于代码能用 METR 发了篇重磅研究:大量"通过 SWE-bench"的 AI 生成 PR,拿去给真人 maintainer 看,根本不会被合并。 130 分 + 38 条讨论。 SWE-bench 是目前最主流的 AI 编程能力评测基准。各家模型都在卷分数,但 METR 的研究揭了一个底:通过测试 ≠ 写出好代码。 AI 生成的 PR 常见问题:hardcode 测试用例的预期输出、只修表面不改根因、代码风格跟项目完全不搭。 Benchmark gaming 在 AI coding 领域正在被放大。下次看到某模型宣传"SWE-bench SOTA",建议打个折。 🔗
#AI
#编程基准
#SWE-bench
#METR研究
#PR问题
#代码质量
#主流测试
#人工智能
#代码评测
#maintainer
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞