Viking 0 关注者 关注 16小时前 Vercel 推出了一个大模型在真实项目中的测试: 现在只有 Next.js 的一系列的总共五十个测试,完成一系列的功能,参考指标包括成功率,平均耗时,Token 使用等等。 非常有趣,排名第一的是 gpt-5-codex 后面有 claude-opus-4.1 glm-4.6 grok-4-fast-reasoning 等等 也确实反应了一些真实工作中的场景。很有参考性,大家可以看看。 #Vercel #大模型测试 #Next.js #GPT-5-Codex #Claude-opus-4.1 前往原网页查看