时政
财经
科技
虚拟货币
其他
登录
#大模型测试
关注
Viking
3周前
Vercel 推出了一个大模型在真实项目中的测试: 现在只有 Next.js 的一系列的总共五十个测试,完成一系列的功能,参考指标包括成功率,平均耗时,Token 使用等等。 非常有趣,排名第一的是 gpt-5-codex 后面有 claude-opus-4.1 glm-4.6 grok-4-fast-reasoning 等等 也确实反应了一些真实工作中的场景。很有参考性,大家可以看看。
#Vercel
#大模型测试
#Next.js
#GPT-5-Codex
#Claude-opus-4.1
分享
评论 0
0
orange.ai
5个月前
之前大家都特别关注的大模型高考测试放出来之后,收到了很多的质疑: 有人说o3降智了 有人说用的客户端都是联网的,用 api 才是真实水平 有人说没加入近期变强的的 Gemini 于是机器之心又搞了一次测试 - 用不降智的 o3 测试 - o3之外,用各家模型的 API 统一测试 - 加入人气很高的了 Gemini 2.5 Pro 结果…又是很意外 o3 虽然没降智,但前三都没进,只屈居第四,最贵不代表就最好啊。 新选手gemini直接拿了第一,豆包和DeepSeek并列第二,但就差了一分。 其中豆包不管用api还是直接产品测试,分数都很高,实际做题场景,应该是国内的最佳选择了。
AI高考数学测试:O3意外落后,Gemini夺冠引发热议· 54 条信息
#大模型测试
#高考
#Gemini
#o3
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞