时政
财经
科技
登录
#KCORES
关注
karminski-牙医
2个月前
来啦!GPT-4.1 测评! KCORES 大模型竞技场为大家带来 GPT-4.1 测评!直接说结论: Gemini-2.5-Pro 仍然领先榜首 GPT-4.1 大概与 Qwen-2.5-Max 相当, 甚至在我的测试集里面是不如 OpenAI-O3-mini-high 和 OpenAI-o1 的 GPT-4.1-mini 则与老的 DeepSeek-V3 差不多, 或者说, 是一个价格便宜的 GPT-4.5 至于 GPT-4.1-nano, 甚至打不过文心一言, 就....别用了吧 分项成绩: 20小球物理模拟测试 GPT-4.1 代码运行的质量是不错的, 但是问题是, 小球的摩擦并没有带来小球的旋转, GPT-4.1-mini 也是同样问题 而 GPT-4.1-nano 则是只剩一个小球 mandelbrot-set-meet-libai 测试 GPT-4.1 的结果主要问题是颜色弄反了, 以及图形渲染的有点大 GPT-4.1-mini 则因为没有全屏渲染扣了分数 GPT-4.1-nano 则指令遵循都有一些问题了, 包括内部全都填充了文本, 中心不正确, 性能太低等等 火星任务测试, 这个就惨不忍睹了, GPT-4.1 渲染的轨道和飞行器执行窗口完全不正确 GPT-4.1-mini 则连星球和飞船都没有 至于 GPT-4.1-nano, 抱歉, 生成的代码跑不起来, 报错了 太阳系模拟测试, 这个也很完蛋, GPT-4.1 把水星与太阳重叠了. 而 GPT-4.1-mini 得分反而比较高, 没有什么太大的失误. GPT-4.1-nano, 它.... 只画了几个圆圈就交卷了. 天梯地址: #大模型竞技场
#GPT-4.1
#Gemini-2.5-Pro
#KCORES
#大模型竞技场测评
#Qwen-2.5-Max
#OpenAI-O3-mini-high
#DeepSeek-V3
分享
评论 0
0
karminski-牙医
3个月前
给大家带来全网最速 DeepSeek-V3-0324 写代码实测! 直接说结论—— 超越 DeepSeek-R1!甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型! DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1),仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错 claude-3.5 在我们的测试下比 claude-3.7 要好一些)。 四项评测中(放不下的图我放评论区): 20 小球碰撞测试 (图2),肉眼可见的进步,之前 DeepSeek-V3 的小球挤成一团,现在物理运动模拟得非常好,仅因掉出了7边形扣了5分,项目排名第5 (图3) mandelbrot-set-meet-libai 测试 (图4),没有过多变化,分数较DeepSeek-V3 低了2分,主要还是将渲染方向搞反了以至于拖累了渲染性能,但是完成度可以看到比之前高很多。项目排名第12 (图5) 火星任务测试(图6),巨大的提升,这次星球,图例均渲染正确,甚至发射和返回窗口计算也有很大进步!项目排名第3 (图7) 九大行星模拟测试(图8),这个是史诗级提升,这是测试的25个模型中,唯一一个画了土星环的大模型!(画土星环就如同画时钟要写3,6,9,12. 画苹果要有个梗一样)项目排名第16,主要还是地球轨道周期没写对 (图9) 总体而言,DeepSeek-V3-0324 能力十分可怕,甚至这还都不是 DeepSeek-V4,更不是 DeepSeek-R2 !我现在十分期待 DeepSeek-R2 的发布了! 评测是开源的哦,地址: #大模型竞技场
#DeepSeek-V3-0324
#DeepSeek-R1
#Claude-3.7
#Thinking模型
#KCORES
#大模型竞技场
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞