ruanyf 0 关注者 关注 3周前 SWE-rebench 是全新的测试基准,选择最近一个月 GitHub 的真实 PR 任务,让大模型去跑。 因为测试任务是变动的,没法提前准备,所以排名相对真实。 最新榜单的前10名全是美国模型,国产模型的得分跟 Opus 4.5 相当,不过优点是便宜,最低价格仅为榜首模型的3%。 前往原网页查看