SWE-bench 跑分高不等于代码能用 METR 发了篇重磅研究：大量"通过 SWE-bench"的 AI 生成 PR，拿去给真人 maintainer 看，根本不会被合并。 130 分 + 38 条讨论。 SWE-bench 是目前最主流的 AI 编程能力评测基准。各家模型都在卷分数，但 METR 的研究揭了一个底：通过测试 ≠ 写出好代码。 AI 生成的 PR 常见问题：hardco

#AI #编程基准 #SWE-bench #METR研究 #PR问题 #代码质量 #主流测试 #人工智能 #代码评测 #maintainer

相关新闻

策引

32分钟前

策引 AI 策略实验室上线。把投资想法变成可验证的公开实验：创建策略、运行回测、查看结果、AI 复盘，再继续优化。免费开放，无需注册。加入 Discord 社区即可开始。支持主流交易策略与组合级别回测。每一步都透明留痕，成功和失败都能复盘沉淀。欢迎加入：

Xiaowen

2小时前

这是有记忆的智能体能写出的文字，我好喜欢。

初码

3小时前

拼多多这个公司有点意思，账面现金1000亿，完全不碰AI，黄峥的战略定力真的屌爆！

AB Kuai.Dong

3小时前

马斯克对未来的观点总结，所有人都会进入一种普遍高收入的时代。 · 金钱在未来可能会逐渐失去意义 · 未来 10 年全球经济规模可能增长 10 倍 · 当生产力达到 1000 倍左右时，人类的欲望反而可能先崩溃 · AI 和机器人，将能够生产人类几乎想要的所有商品、服务和体验 · 电力将成为核心资源，到那时即使马斯克的财富，也会变得没有意义 · 这些事情发生的概率，他认为大约 80% 更让人觉得

Viking

3小时前

今天 HackerNews 上最火的新闻是这个非常有趣：干的事是是用AI机器人帮企业把开源依赖重新实现一遍，从而摆脱开源许可证的各种限制。他们的AI号称不看原代码，只看公开文档、API spec等，从零独立重写功能等价的代码，输出的代码归你公司所有，宣称这样就彻底解放了，不用遵守原开源许可的attribution。定价很便宜：按npm解压后大小 $0.01/KB。针对开源作者今天 MI