来啦！GPT-4.1 测评！ KCORES 大模型竞技场为大家带来 GPT-4.1 测评！直接说结论： Gemini-2.5-Pro 仍然领先榜首 GPT-4.1 大概与 Qwen-2.5-Max 相当, 甚至在我的测试集里面是不如 OpenAI-O3-mini-high 和 OpenAI-o1 的 GPT-4.1-mini 则与老的 DeepSeek-V3 差不多, 或者说, 是一个价格便宜

#GPT-4.1 #Gemini-2.5-Pro #KCORES #大模型竞技场测评 #Qwen-2.5-Max #OpenAI-O3-mini-high #DeepSeek-V3

相关新闻

Oasis Feng

4个月前

GitHub 怕不是准备把 GitHub Models 产品放弃了吧？里面最新模型还停留在 GPT-5、Grok-3、DeepSeek-V3。这个产品的定位的确是非常不清晰。

karminski-牙医

5个月前

写个随笔, 就当获奖感言了. 我一个电子垃圾博主怎么就当选AI大V了呢？熟悉我的朋友应该知道我这个账号之前一直是个个人号，分享点编程，电子垃圾，骑行之类的"日常"(对我来说)。事情的起因应该是去年下半年我想攒一个 4xA100 的垃圾服务器，顺便把折腾的大模型显卡天梯给大家分享了下，没想到大家纷纷表示想要多看点这类内容。然后爆发节点是去年年底 DeepSeek-V3 的发布, 我直接拿了

karminski-牙医

5个月前

刚才我那个大模型实盘交易虚拟货币的帖子火了，于是我抓了几小时数据，给大家带来解析为什么 deepseek 在 2 天赚了 3500 刀答案很简单，18号开盘所有模型入场的时候，正好是价格低点，deepseek 全仓10-15x做多。然后不换手不止损不止盈，然后价格一路上涨........躺赢了.... 那么 gemini-2.5-pro 为啥亏了3000刀？答案是 gemini-2.5-pr

sitin

7个月前

Dia 浏览器又更新了 v0.40，重点围绕“深度思考 + 混沌中理清逻辑”。值得一提： 1.Reasons for Dia：复杂问题可以 /research 一下再问，系统会先思考，再答复你一个更“有脑子”的答案。还可以免费白嫖 GPT-4.1和 O3模式。 2.记忆系统升级：现在 Dia 会自动记住你常用的项目、写作风格和关心的内容，问问题时不必重复背景，它自己会带上下文给出更贴合的回

Geek

9个月前

之前 Aider 配置略显复杂，今天尝试 gemini-cli 则非常简单，只需登录个人 Google 账户，即可直接调用 gemini-2.5-pro。根据git仓库说法，每分钟支持60次请求，每天上限1,000次，这个额度完全能满足我的需求。许多以往遥不可及的想法，新手现在都能轻松实现。感觉 Google 亲自下场，其它竞品可歇息了。