sitin

sitin

0 关注者

1小时前

SWE-bench 跑分高不等于代码能用 METR 发了篇重磅研究:大量"通过 SWE-bench"的 AI 生成 PR,拿去给真人 maintainer 看,根本不会被合并。 130 分 + 38 条讨论。 SWE-bench 是目前最主流的 AI 编程能力评测基准。各家模型都在卷分数,但 METR 的研究揭了一个底:通过测试 ≠ 写出好代码。 AI 生成的 PR 常见问题:hardco

相关新闻