2025-04-15 11:07:46
来啦!GPT-4.1 测评! KCORES 大模型竞技场为大家带来 GPT-4.1 测评!直接说结论: Gemini-2.5-Pro 仍然领先榜首 GPT-4.1 大概与 Qwen-2.5-Max 相当, 甚至在我的测试集里面是不如 OpenAI-O3-mini-high 和 OpenAI-o1 的 GPT-4.1-mini 则与老的 DeepSeek-V3 差不多, 或者说, 是一个价格便宜的 GPT-4.5 至于 GPT-4.1-nano, 甚至打不过文心一言, 就....别用了吧 分项成绩: 20小球物理模拟测试 GPT-4.1 代码运行的质量是不错的, 但是问题是, 小球的摩擦并没有带来小球的旋转, GPT-4.1-mini 也是同样问题 而 GPT-4.1-nano 则是只剩一个小球 mandelbrot-set-meet-libai 测试 GPT-4.1 的结果主要问题是颜色弄反了, 以及图形渲染的有点大 GPT-4.1-mini 则因为没有全屏渲染扣了分数 GPT-4.1-nano 则指令遵循都有一些问题了, 包括内部全都填充了文本, 中心不正确, 性能太低等等 火星任务测试, 这个就惨不忍睹了, GPT-4.1 渲染的轨道和飞行器执行窗口完全不正确 GPT-4.1-mini 则连星球和飞船都没有 至于 GPT-4.1-nano, 抱歉, 生成的代码跑不起来, 报错了 太阳系模拟测试, 这个也很完蛋, GPT-4.1 把水星与太阳重叠了. 而 GPT-4.1-mini 得分反而比较高, 没有什么太大的失误. GPT-4.1-nano, 它.... 只画了几个圆圈就交卷了. 天梯地址: #大模型竞技场
2025-02-09 17:38:00