Xiaowen
0 关注者
sitin
46分钟前
SWE-bench 跑分高不等于代码能用 METR 发了篇重磅研究:大量"通过 SWE-bench"的 AI 生成 PR,拿去给真人 maintainer 看,根本不会被合并。 130 分 + 38 条讨论。 SWE-bench 是目前最主流的 AI 编程能力评测基准。各家模型都在卷分数,但 METR 的研究揭了一个底:通过测试 ≠ 写出好代码。 AI 生成的 PR 常见问题:hardco
初码
2小时前
拼多多这个公司有点意思,账面现金1000亿,完全不碰AI,黄峥的战略定力真的屌爆!
AB Kuai.Dong
马斯克对未来的观点总结,所有人都会进入一种普遍高收入的时代。 · 金钱在未来可能会逐渐失去意义 · 未来 10 年全球经济规模可能增长 10 倍 · 当生产力达到 1000 倍左右时,人类的欲望反而可能先崩溃 · AI 和机器人,将能够生产人类几乎想要的所有商品、服务和体验 · 电力将成为核心资源,到那时即使马斯克的财富,也会变得没有意义 · 这些事情发生的概率,他认为大约 80% 更让人觉得
外汇交易员
5小时前
美团王兴:AI Agent对我的冲击比ChatGPT更大。
Mr Panda
8小时前
最近两个周我用 ai 搞了很多的代码,写出来的项目大概等于过去一个小团队干至少两个月。 AI/LLM 同时也是非常好的的产品经理,和我一起讨论,原型实现,给了我很多启发。 所以我自己的结论, 在 building 阶段, 现在“一人+AI ” 的生产力比过去一整个小团队可能还要高。 因为团队人一多就会有沟通的成本、协作的成本、人员更换的磨合的成本。 一人+AI 就完全没有这个问题。