#KCORES

karminski-牙医

11个月前

来啦！GPT-4.1 测评！ KCORES 大模型竞技场为大家带来 GPT-4.1 测评！直接说结论： Gemini-2.5-Pro 仍然领先榜首 GPT-4.1 大概与 Qwen-2.5-Max 相当, 甚至在我的测试集里面是不如 OpenAI-O3-mini-high 和 OpenAI-o1 的 GPT-4.1-mini 则与老的 DeepSeek-V3 差不多, 或者说, 是一个价格便宜的 GPT-4.5 至于 GPT-4.1-nano, 甚至打不过文心一言, 就....别用了吧分项成绩： 20小球物理模拟测试 GPT-4.1 代码运行的质量是不错的, 但是问题是, 小球的摩擦并没有带来小球的旋转, GPT-4.1-mini 也是同样问题而 GPT-4.1-nano 则是只剩一个小球 mandelbrot-set-meet-libai 测试 GPT-4.1 的结果主要问题是颜色弄反了, 以及图形渲染的有点大 GPT-4.1-mini 则因为没有全屏渲染扣了分数 GPT-4.1-nano 则指令遵循都有一些问题了, 包括内部全都填充了文本, 中心不正确, 性能太低等等火星任务测试, 这个就惨不忍睹了, GPT-4.1 渲染的轨道和飞行器执行窗口完全不正确 GPT-4.1-mini 则连星球和飞船都没有至于 GPT-4.1-nano, 抱歉, 生成的代码跑不起来, 报错了太阳系模拟测试, 这个也很完蛋, GPT-4.1 把水星与太阳重叠了. 而 GPT-4.1-mini 得分反而比较高, 没有什么太大的失误. GPT-4.1-nano, 它.... 只画了几个圆圈就交卷了. 天梯地址： #大模型竞技场

#GPT-4.1 #Gemini-2.5-Pro #KCORES #大模型竞技场测评 #Qwen-2.5-Max #OpenAI-O3-mini-high #DeepSeek-V3

karminski-牙医

1年前

给大家带来全网最速 DeepSeek-V3-0324 写代码实测！直接说结论—— 超越 DeepSeek-R1！甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型！ DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1)，仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错 claude-3.5 在我们的测试下比 claude-3.7 要好一些)。四项评测中（放不下的图我放评论区）： 20 小球碰撞测试 (图2)，肉眼可见的进步，之前 DeepSeek-V3 的小球挤成一团，现在物理运动模拟得非常好，仅因掉出了7边形扣了5分，项目排名第5 (图3) mandelbrot-set-meet-libai 测试 (图4)，没有过多变化，分数较DeepSeek-V3 低了2分，主要还是将渲染方向搞反了以至于拖累了渲染性能，但是完成度可以看到比之前高很多。项目排名第12 （图5）火星任务测试（图6），巨大的提升，这次星球，图例均渲染正确，甚至发射和返回窗口计算也有很大进步！项目排名第3 （图7）九大行星模拟测试（图8），这个是史诗级提升，这是测试的25个模型中，唯一一个画了土星环的大模型！（画土星环就如同画时钟要写3，6，9，12. 画苹果要有个梗一样）项目排名第16，主要还是地球轨道周期没写对（图9）总体而言，DeepSeek-V3-0324 能力十分可怕，甚至这还都不是 DeepSeek-V4，更不是 DeepSeek-R2 ！我现在十分期待 DeepSeek-R2 的发布了！评测是开源的哦，地址： #大模型竞技场

#DeepSeek-V3-0324 #DeepSeek-R1 #Claude-3.7 #Thinking模型 #KCORES #大模型竞技场