#大模型测试

3个月前

Vercel 推出了一个大模型在真实项目中的测试：现在只有 Next.js 的一系列的总共五十个测试，完成一系列的功能，参考指标包括成功率，平均耗时，Token 使用等等。非常有趣，排名第一的是 gpt-5-codex 后面有 claude-opus-4.1 glm-4.6 grok-4-fast-reasoning 等等也确实反应了一些真实工作中的场景。很有参考性，大家可以看看。

#Vercel #大模型测试 #Next.js #GPT-5-Codex #Claude-opus-4.1

8个月前

之前大家都特别关注的大模型高考测试放出来之后，收到了很多的质疑：有人说o3降智了有人说用的客户端都是联网的，用 api 才是真实水平有人说没加入近期变强的的 Gemini 于是机器之心又搞了一次测试 - 用不降智的 o3 测试 - o3之外，用各家模型的 API 统一测试 - 加入人气很高的了 Gemini 2.5 Pro 结果…又是很意外 o3 虽然没降智，但前三都没进，只屈居第四，最贵不代表就最好啊。新选手gemini直接拿了第一，豆包和DeepSeek并列第二，但就差了一分。其中豆包不管用api还是直接产品测试，分数都很高，实际做题场景，应该是国内的最佳选择了。

AI高考数学测试：O3意外落后，Gemini夺冠引发热议· 67 条信息

#大模型测试 #高考 #Gemini #o3