时政
财经
科技
虚拟货币
其他
登录
#代码评测
关注
sitin
2周前
SWE-bench 跑分高不等于代码能用 METR 发了篇重磅研究:大量"通过 SWE-bench"的 AI 生成 PR,拿去给真人 maintainer 看,根本不会被合并。 130 分 + 38 条讨论。 SWE-bench 是目前最主流的 AI 编程能力评测基准。各家模型都在卷分数,但 METR 的研究揭了一个底:通过测试 ≠ 写出好代码。 AI 生成的 PR 常见问题:hardcode 测试用例的预期输出、只修表面不改根因、代码风格跟项目完全不搭。 Benchmark gaming 在 AI coding 领域正在被放大。下次看到某模型宣传"SWE-bench SOTA",建议打个折。 🔗
#AI
#编程基准
#SWE-bench
#METR研究
#PR问题
#代码质量
#主流测试
#人工智能
#代码评测
#maintainer
分享
评论 0
0
wwwyesterday
1年前
之前夸了 gemini 2.5 pro 写代码可以,今天继续评一个。 vibe coding 用户或者纯靠 AI 忙着做产品,做独立开发的就算了,继续使用 sonnet 3.5 或者 3.7 吧,做做卡片做点小玩意儿又快又准。 gemini 2.5 pro 不适合下面两种状态: 1. 我啥都不会,靠 AI 你了。 2. 我啥都会,我只需要你干杂活,我让你怎么写你怎么写。 第一个可能好理解,第二个为什么看起来有点奇怪。我们不是在网络上经常倡导掌握一点编程知识,然后让 AI 来做脏活累活,我们做架构设计就可以了吗? 因为 gemini 2.5 pro 这货有点不一样。 前面那个模式,你要的是个忠实的打手,但 gemini 2.5 pro,这货有点自己的想法。 指令遵循上并不那么完美,隐约能捕捉到一些训练语料里 over thinking 的痕迹。 应该是使用了大量的合成数据,在生成数据的时候,提示词里显然有非常明确的要求,然后 AI 就大量创建了注释。如果你稍微试一下,就会发现这货在代码里的注释简直写的丧心病狂。 写的废话可多了。 屁大点事都给你解析成屁的起源屁的发展屁的未来。 带来的问题是什么。当然问题和好处是相伴相生的。 代码的阅读性一塌糊涂,密密麻麻不分轻重主次的注释占满了整个屏幕。 注意不是说注释写的多不好,而是不分主次,什么都写,像极了领导讲话和你每周在公司写的周报。 我就算提示词里要求了,过不了几步,就又老毛病犯了狂吐注释。当然,由此也可以窥见它的训练的语料有多疯狂。 好处是什么,充足详细的说明,让它在处理长逻辑的时候,基本不会忘了到底要干什么,基本可以控制在主线上走。 我会认为它是当下非常合适的 copilot 类 coding 工具,而不是开始往 agent 方向发展的那一类。 在 roocode 里测试的时候能明确感觉到这一点,如果你日常还是 copilot 模式为主,你现在真的应该去试试。
#Gemini2.5Pro
#Sonnet3.5
#Sonnet3.7
#AI编程助手
#代码评测
#独立开发
#VibeCoding
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞