Vercel 推出了一个大模型在真实项目中的测试：现在只有 Next.js 的一系列的总共五十个测试，完成一系列的功能，参考指标包括成功率，平均耗时，Token 使用等等。非常有趣，排名第一的是 gpt-5-codex 后面有 claude-opus-4.1 glm-4.6 grok-4-fast-reasoning 等等也确实反应了一些真实工作中的场景。很有参考性，大家可以看看。

#Vercel #大模型测试 #Next.js #GPT-5-Codex #Claude-opus-4.1

相关新闻

Viking

6天前

写 Next.js 的可以看看 Vercel 的 AI agent benchmark 很真实的一个大模型解决 next.js 功能的测试，每个大模型给 21 个测试看结果。之前也推荐过，我每次写都会看看，这次另外惊奇的是 Cursor Composer2 的成功率 95% 排名第三，而前几天说的被他魔改的 Kimi K2.5 只有 52%，看来 RL 版本还是有用的啊，一下提高了这么多成

郭宇 guoyu.eth

1周前

本地项目实在太多了，放弃了我的端口分配 skill，全面转向 vercel 的 portless

卡颂

1周前

一个拍脑袋问题：有没有办法让 AI 不能理解我做的项目？类似古法编程时代的防御性编程。看到最近 Vercel CTO 和 CF团队的撕逼（后者用 AI 重写了 Next，slop-fork 开源项目 just-bash）想到的问题

yetone

3周前

你们这些用 Next.js 的人，电脑真好，羡慕了

ilovelife

3个月前

如果哆啦A梦做独立开发，他出海的“黄金技术栈” 会是啥？🛠️🌊 ✅ 规划: Notion, Xmind ✅ 开发: Next.js, Tailwind, Supabase ✅ 部署: Vercel/Netlify ✅ 增长: Product Hunt, X ✅ 变现: Stripe, Lemon Squeezy 1. 创意与管理 (Ideation & Management): • Notio