#RL版本

1天前

写 Next.js 的可以看看 Vercel 的 AI agent benchmark 很真实的一个大模型解决 next.js 功能的测试，每个大模型给 21 个测试看结果。之前也推荐过，我每次写都会看看，这次另外惊奇的是 Cursor Composer2 的成功率 95% 排名第三，而前几天说的被他魔改的 Kimi K2.5 只有 52%，看来 RL 版本还是有用的啊，一下提高了这么多成功率。

#Next.js #Vercel #AI Agent Benchmark #Cursor Composer2 #Kimi K2.5 #RL版本