Viking

Viking

0 关注者

2周前

Cursor 做了一个 Cursor Bench,介绍他们内部如何评估编程大模型 基于自家工程团队真实使用 Cursor 时的会话数据构建。 通过Cursor Blame追溯 git 提交 → 找到 AI 生成的代码 → 配对当时的真实用户请求,接近日常开发真实场景。 反正最后的结果是: GPT-5.3/5.4 Codex + Claude Opus 4.6 是最强档,但是 token 消耗

热门新闻