日月小楚 |Building AI Agents 0 关注者 关注 1个月前 AI降智的实锤数据 claude Opus 4.5 这是Marginlab团队,每日使用claude code的Opus 4.5 对SWE-Bench-Pro 的50到题目进行通过性测试。 从数据看到,从1月初的60%,下降到现在54%。降智率为10%。 前往原网页查看