之前大家都特别关注的大模型高考测试放出来之后，收到了很多的质疑：有人说o3降智了有人说用的客户端都是联网的，用 api 才是真实水平有人说没加入近期变强的的 Gemini 于是机器之心又搞了一次测试 - 用不降智的 o3 测试 - o3之外，用各家模型的 API 统一测试 - 加入人气很高的了 Gemini 2.5 Pro 结果…又是很意外 o3 虽然没降智，但前三都没进，只屈居第四

#大模型测试 #高考 #Gemini #o3

相关新闻

Oasis Feng

11小时前

试了一下 Gemini 加持的 Google Spreadsheet，完全正确理解了我的需求并准确地完成了批量修改。之前弄这种间隔一列而且还在隐藏列中的公式调整简直就是体力活，自己机械操作这么十几列还挺容易出错。Gemini 简直堪称救星！🥹 就是现阶段这速度实在还有点慢…（Gemini 前后花了差不多一分钟才完成）

Michael Anti

12小时前

虽然Gemini说开放了香港IP，但至今为止，只是网页版能用，API依然封锁。

Robinson · 鲁棒逊

1天前

忽然想到我已经好久没有打开过gemini了好像查无此人了…… 相信不是我一个人

黄赟

2天前

一个最能体现你当下 AI Coding 水平的问题：你能让 codex，claude code, gemini cli 无人值守运行多长时间？注意⚠️：是无人值守，你可以去跑步，吃饭，睡觉，回来就拿结果的那种

猫神

2天前

高考对赌协议？有你这配置，还高考个锤子啊？最坏的结果，就是去美国留学？还不得协商‼️，没得商量‼️不要心存侥幸？‼️ 这就是最公平的高考？这叫同一场考试，羞辱不同的人生～～ 😢

关联事件

AI高考数学测试：O3意外落后，Gemini夺冠引发热议

在近期的AI高考数学测试中，O3虽然未降智，但却屈居第四，未能进入前三名，引发了广泛的质疑与讨论。此次测试不仅使用了O3，还引入了其他模型的API进行统一评估，并加入了人气模型Gemini 2.5 Pro。结果显示，国内多款模型在推理能力上有显著提升，基本都能考上130分以上，其中Gemini在客观题测试中表现最佳。随着AI数学能力的提升，未来的测试结果可能会趋于满分，导致各模型之间的区分度降低。这一现象引发了对AI发展趋势的深入探讨，尤其是在教育领域的应用前景。