0 关注者

2周前

Cursor 做了一个 Cursor Bench，介绍他们内部如何评估编程大模型基于自家工程团队真实使用 Cursor 时的会话数据构建。通过Cursor Blame追溯 git 提交 → 找到 AI 生成的代码 → 配对当时的真实用户请求，接近日常开发真实场景。反正最后的结果是： GPT-5.3/5.4 Codex + Claude Opus 4.6 是最强档，但是 token 消耗

热门新闻