关键人物/组织

灭

意外落后

对比

Air Street Capital

攻打

夺冠引发热议

对比

集中算力打一个角

内森·贝纳伊奇

AI高考数学测试：O3意外落后，Gemini夺冠引发热议

2025-06-12

165 次查看

0 次互动

#AI高考数学

#o3

#Gemini 2.5 Pro

#AI推理能力

#教育应用

在近期的AI高考数学测试中，O3虽然未降智，但却屈居第四，未能进入前三名，引发了广泛的质疑与讨论。此次测试不仅使用了O3，还引入了其他模型的API进行统一评估，并加入了人气模型Gemini 2.5 Pro。结果显示，国内多款模型在推理能力上有显著提升，基本都能考上130分以上，其中Gemini在客观题测试中表现最佳。随着AI数学能力的提升，未来的测试结果可能会趋于满分，导致各模型之间的区分度降低。这一现象引发了对AI发展趋势的深入探讨，尤其是在教育领域的应用前景。

AI 智能分析

基于多源数据的智能分析与洞察

此次事件围绕AI模型在高考数学测试中的表现展开，反映了AI技术的快速发展及其在教育领域的应用潜力。最初的测试引发了对模型能力的质疑，随后通过多次测试和比较，逐步揭示了各大模型的真实水平和进步情况。

事件发展趋势

• AI模型在高考数学测试中的表现逐步提高。
• Gemini模型在各项测试中表现突出，成为新的标杆。
• AI技术在教育领域的应用逐渐深入，影响学习方式和教育评估。

关键洞察

• AI的推理能力和数学能力显著提升，可能会导致未来的测试缺乏区分度。
• 不同模型在相同任务下的表现差异，反映了技术发展的不均衡性。
• AI在教育领域的应用将重塑传统学习和评估方式。

政策建议

• 未来的测试应考虑AI模型的进步，设计更具挑战性的题目。
• 教育者应关注AI技术对学习方式的影响，合理利用AI辅助教学。
• 对AI模型的评估应更加全面，考虑其在不同情境下的表现。

AI 分析基于公开数据，仅供参考，不构成任何建议

事件时间线

2025-11-27

16:40

AI 的进化不是画圆，而是长刺。我们正站在那个星号的位置，惊叹于它的神力，也困惑于它的愚蠢。距离填满那个圆，AGI还有多远？

来源：

✧ 𝕀𝔸𝕄𝔸𝕀 ✧

2025-11-24

23:30

gemini 3.0 pro 的 IQ 分数出来了：历史上所有 LLM 的最高分！（IQ 测试分为两档：门萨版测试和线下/离线版测试。离线版的题目是全新设计且保密的，所有 LLM 都没看过，所以不存在背答案、或模型训练时见过等问题。通常情况下，离线版的 IQ 也会低 10～20 分。）离线版测试，gemini 3.0 pro 的 IQ 是历史最高分，130 分；门萨测试，gemini

来源：

howie.serious

23:20

Gemini Pro无敌了，用Gemini Pro帮娃检查作业，Gemini Pro像一个耐心的老师，不仅会检查作业，还会鼓励人，给足我和孩子情绪价值最最厉害的是，它还直接针对出错的题型，生成新的可以互动的题目，太强了。推荐需要辅导娃功课的推友都试试👍

来源：

2025-11-23

02:55

gemini 编程是抖音社会榜第三名？？这超出我认知范围了

来源：

dontbesilent

2025-11-22

17:00

这届网友太有才了，后面的几个模型是啥？

来源：

ilovelife

2025-11-19

18:13

用 Gemini 3 做的这些游戏看上去还不错整个自己的 4399 也并非不可能

来源：

Justin

15:27

让Gemini 3生成了一个魔方

来源：

金融汪

14:58

Gemini 3.0 出了，Timeline 都在狂欢。但我今天没急着测，也没跑分。我甚至刻意让自己滞后了一天。（其实是今天六节课，早八晚八）作为每天都在在这个圈子里卷的人，我有 3 点反直觉的思考，想泼点冷水： 1. 我们眼中的常识，是大众的盲区我们在讨论 token 上限时，咸鱼上有人在卖 DeepSeek 和豆包的“免费入口链接”，销量很高。这说明了什么？说明技术越强，

来源：

12:16

AI让我们的思考有了助力，这是我一直想问的题目，我今天让AI去回答了：三维球体在二维平面的投射是个圆，那么请画出四维球（超球体）在三维立体空间的投射是什么样子？以下分别是Gemini、Qwen(Grok)、GPT、Deepseek。不知道数学专家认为哪个对？

来源：

Michael Anti

12:03

看完 Gemini 3 发布后的第一反应—— 以前我们担心 AI 抢工作，现在我怀疑，它连“创业”也能干了。能拆解复杂任务，自己规划、执行、验证。视频、图片、代码全能看懂，一次性处理多模态。新平台 Antigravity：AI 直接写代码、跑测试、修 Bug、上线网站。以前 Copilot 帮你提效 30%。现在 Gemini 3 能替你「整活 300%」。更离谱的是，它能

来源：

sitin

11:46

gemini 3.0 pro，一个更好的思想伙伴（thinking partner）？测试案例： > deep-think this """ > > 想到：在 embedding 的世界，King - Queen = Man - Woman。 > > 那么，语文的本质，是数学？初步感受： - 逢迎问题（sycophancy）似乎被解决了； - 同一个测试案例，相对于gpt-5.1 thin

来源：

howie.serious

2025-11-18

23:46

Gemini3.0测试-选题创作准确度、严谨度、发散能力足够

来源：

素人极客-Amateur Geek

19:48

流传着一份泄漏的Gemini 3 的基准测试结果不知道真假😌 今晚见分晓

来源：

2025-11-08

07:45

就是这个算法，但是有很多种组合

来源：

XiaoPeng

2025-11-07

13:05

想当年，一道鸡兔同笼的应用题，能让我和同桌的友谊小船说翻就翻。我俩算了半天，最后答案是半只鸡和一条半的腿。老师看完卷子，眼神里充满了对人类未来的担忧。现在的小孩太幸福了。遇到难题，直接把问题丢给AI。不仅秒出答案，还能把解题步骤给你掰开了揉碎了讲，比我当年那个只会敲黑板的数学老师耐心一万倍。感觉我的数学天分，可能只是生错了时代。AI这玩意儿，才是真正的未来私教。不多说了，我准备用它重新

来源：

杀马特宅主

2025-11-03

10:24

这 AI 到底是厉害啊，还是不厉害啊。

来源：

大帅老猿

2025-10-31

07:36

上次是google deepmind那篇，这次是这个：大家一起来玩ICL

来源：

$𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞$

2025-10-29

10:30

好了好了 AI已经彻底赢了黄仁勋可以闭嘴了吗？

来源：

勃勃OC

2025-10-28

17:09

GPT-5 似乎也意识到了这个课题的重要性，严肃地思考了 5 分多钟，然后给出了肯定的回答。这让我信心大增，立刻着手开始模型的调整。过程中，我不断反思自己为什么就没能想到这个如此简洁的思路。Cost 构造函数中对 amount 必须位正的人为设限，反而给 Gemini 以挑战的灵感，终成我的「希帕索斯」。\

来源：

Oasis Feng

2025-10-27

00:53

我想知道结果怎么样？还能吃🍔吗？这是AI吗？

来源：

2025-10-26

22:33

千问的表现为什么这么强啊

来源：

大帅老猿

2025-10-25

21:31

超过3维我们的脑子就只能交给数学了

来源：

$𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞$

2025-10-17

05:15

三个AI解小学数学题（图一Grok，图二Chatgpt，图三图四Gemini）

来源：

Ken Wong

2025-10-14

10:55

💥 《2025年度AI状况报告》终极解码 | 熬夜看完313页，为你划出7个必看重点！这份长达313页的报告是一份信息密度极高的专家级分析，我们将其中最精华、最震撼的七个核心趋势提炼出来，为你呈现一份终极“作弊码”。文末我们会提供原版报告和沉浸式翻译的中文版报告下载 1⃣AI真的会“思考”了！推理能力迎来核爆级升级 ✨ 我们正处于一个‘伪推理’的时代——AI正在完美复刻人类思考的过程，

来源：

沉浸式翻译

04:29

AI 机器人完胜大部分中国人的大脑！👍

来源：

悉尼閑人

2025-10-11

18:46

这又是整什么活？心算导弹轨迹？

来源：

多伦多方脸

15:24

ChatGPT、Gemini排名没啥争议 DeepSeek现在居然还能排第3

来源：

松果先森

08:04

《2025年人工智能现状报告》（State of AI Report 2025）该报告由内森·贝纳伊奇（Nathan Benaich）和Air Street Capital发布，全面探讨了过去一年人工智能在研究、产业、政治和安全等领域的重大进展。报告核心摘要 (Executive Summary) - 研究 (Research): “先思考后回答”的推理模型成为年度焦点，OpenAI、Goo

来源：

Yangyi

2025-10-10

09:19

如果你还没注意到这个变化，那现在应该关注一下：计算的重心正在从预训练转向推理。我们发现，通过在测试时扩大计算资源的投入，效率提升非常显著，而且这种提升的空间似乎还很大。在人工智能领域，预训练阶段就像给模型打好基础，用海量数据让模型学会知识和规律。但真正让模型服务于实际问题的，是推理阶段——就像让学会了知识的人去解决具体问题。过去，大家可能更关注如何让预训练模型变得更大更强，比如用更

来源：

Y11

2025-10-09

21:52

最近发模型的速度明显慢下来了是不是都开始卷应用了... AI竞赛似乎要进入下一个阶段了

来源：

2025-10-06

20:31

OpenAI的GDPval评测集有点意思。让AI完成44个高薪职业的真实任务。平均每个任务需要专家花费7小时，单任务价值 $361 美元。到底哪个模型最牛逼？下面来拆解

来源：

向阳乔木

2025-10-04

17:15

当数学老师问你解题过程

来源：

Ken Wong

2025-10-03

22:59

AI 辅助 Vibe Coding 也可以帮到陶哲轩（数学家）「我利用了一次和 AI 的深入对话，来帮助回答了一个 MathOverflow 上的问题。在此之前，我已经做过理论分析，倾向于认为答案是否定的，但我还需要一些数值参数去验证某些不等式，才能最终构造出反例。起初，我尝试让 AI 提供一段 Python 代码，用来搜索反例，然后自己运行和调整。但发现运行时间太长，而且最初的参数选择本来

来源：

迈克 Mike Chong

2025-09-26

15:56

AI都干不出来这事

来源：

Ken Wong

11:10

预判更新也许图一第一个预判是对的，走了个更复杂的麦当劳

来源：

RamenPanda

2025-09-25

12:58

Leetcode到死也没想到打败自己的居然是AI 🤣🤣🤣

来源：

勃勃OC

2025-09-24

22:29

马一龙的算法又滞涨了？

来源：

背包健客

2025-09-18

10:12

同样用在deep think的prompt（左图）放在AI Studio gemini 2.5 pro thinking budget开到最大，结果无端端出来个2023年（右图）😅

来源：

Jesse Lau 遁一子

2025-09-17

22:34

鬼影还在看起来像是算法算没了

来源：

砍砍@标准件厂长

2025-09-13

07:43

让 AI 解读一下这个笑话，Gemini 居然在开车🤦

来源：

2025-09-09

16:09

ai for science 全面加速啊

来源：

$𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞$

14:12

借 AI 的训练过程观照自身，第一个要回答的问题就是：「你的奖励函数是什么？」

来源：

李继刚

2025-09-04

21:00

天啦，78%的完读率，这我说对了什么？驯AI记：从满口“赋能闭环”到会说“我懂了哥”，我们只做对了一件事 | 什么是OAG的AI顿巴数本体字典？

来源：

$𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞$

2025-09-02

22:20

数据科学这么火？是因为跟大模型相关吧？

来源：

Olivert

2025-08-29

15:02

虽然感觉中长篇claude opus应该不敌gemini，还是整一个测试一下

来源：

Jesse Lau 遁一子

2025-08-25

11:05

这居然是ai做的…

来源：

10xMyLife

2025-08-24

05:14

我能理解为啥最近好几个中文研究机构都出来用AI来发现AI的研究论文了：上海人工智能实验室：AI科学发现基座模型上海创智学院：AI模型算法架构发现香港大学：AI科学发现

来源：

$𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞$

2025-08-22

23:06

看完后才发现，自己数学是个小学水平😓

来源：

卫斯理

2025-08-20

18:59

还是AI Studio gemini开最大thinking马力更靠谱。 CC跑几轮把编辑注释留在里面了😅 所以最后一下还是需要gemini来人工收尾

来源：

Jesse Lau 遁一子

2025-08-18

00:54

AI 重塑了学历一个不了解 AI 的清北研究生 vs 一个能熟练使用 cursor、claude code、gemini cli，会本地部署各种大模型的小学学历的 ChatGPT、Claude、Gemini 的高级会员无论是招聘还是合作，我都会选后者

来源：

dontbesilent

2025-08-15

09:45

有些人啊，连大模型都不如你看这Gemini，多么会说话，情绪价值给的多足？我话撂在这，要不了多久，人类一定爱上AI，机器人。

来源：

汤光头

2025-08-14

16:22

机器学习好啊，机器学习得学啊

来源：

在悉尼和稀泥

2025-08-09

12:08

gpt-5的IQ测试出分了，57分🤣 去围观：

来源：

howie.serious

08:28

奥特曼喜欢用奇基于大面积铺开C端chatGPT算力平均分配不足，奥特曼会用集中算力打一个角这次GPT-5的更新明显把算力侧重在codex，所以web端表现so so codex目前我用下来几乎是指哪打哪，很强大，比gemini cli和kiro丝滑太多大概目标是先灭claude，再想办法攻打google 其实这招也用过，google出native image的时候，奥特曼也是重点算

来源：

Jesse Lau 遁一子

2025-08-08

20:51

都 2025 年中了，大家还在用这种方式测 AI？挺哭笑不得的。

来源：

wwwgoubuli

20:15

我也给众AI试了这个题目：5.9 = x + 5.11，X是多少？结果GPT 5，Cloud opus 4.1，Gemini 2.5 Pro是2.1，o3、Grok4、Kimi K2和Doubao Seed 1.6都是0.79。

来源：

Michael Anti

13:51

GPT-5模型的各种跑分都是按reasoning_effort=high来的，而ChatGPT里的这个GPT-5很多时候都不会触发推理（于是连9.8和9.11哪个大都回答不好），可能这就是落差如此大的原因？（GPT-5 Thinking就好很多）

来源：

wong2

08:56

简单试试 GPT-5 的前端能力吧毕竟其他进步感知不强，甚至有的还有点倒退会加上 Gemini 2.5 Pro 和 Claude 4.1 的对比从第一个结果来看，GPT-5 相较于之前是好不少，但肯定没有 Gemini 和 Claude 强，而且这次最漂亮的居然是 Gemini

来源：

歸藏(guizang.ai)

2025-08-06

18:52

个人感觉现在大部分的工程师都在忙着专研 AI 编程，等技术溢出的时候，应该对大部分领域都是降维打击 🚀 比如 Gemini 刚刚推出的 Storybook 功能，我只输入了： “给孩子解释宝宝是怎么来的，用宫崎骏的风格输出” 说实话这个问题大部分人都应该挺难回答的，故事结果出来我个人觉得效果很炸裂🔥

来源：

Guangzheng Li

2025-07-22

05:08

奥数金牌较上劲了。😁 gemini deep think 42分获得35分 “我们可以确认，Google DeepMind 已经达到备受期待的里程碑，在 42 分满分中取得了 35 分——金牌成绩。他们的解答在许多方面令人惊叹。IMO 评分员一致认为，这些解答清晰、精准，大多数都易于理解。” ——国际数学奥林匹克（IMO）主席 Gregor Dolinar 教授

来源：

Jesse Lau 遁一子

2025-06-16

15:37

看到很多人用大模型做高考数学卷可以得140分了？为什么我让Claude，Grok，GPT和DeepSeek做初一卷子的最后一题，驴唇不对马嘴？各种角的时候，跟到中间就错了，你指出来错误，他就改变以知条件重新推导。新的结果再费劲去看，中间错了，再重新推导。三轮下来，我已经没有耐心再看下去了。

来源：

洛克船长

2025-06-12

14:08

看了一下机器之心的高考数学 AI 模型测试。国内模型在过去一年的推理能力进步很真的挺大的，基本全部都能考上 130 多分。豆包、DeepSeek的选择题和解答题得分都非常高，基本上超过了大多数人的水平。而且豆包在 APP 端和 API 端的分数都很高。 Gemini 确实强，在所有客观题的测试中排第一。从 o3 的基准测试来看即使没有像国产模型的高考数学数据，也不应该这么低，API

来源：

歸藏(guizang.ai)

2025-06-11

23:06

一年之间 AI 做高考数学从 47 分到 145 分！AI 数学能力发生了什么？自从去年极客公园搞了次 AI 做数学题，今年各大媒体又开始让 AI 写作文做数学题了，但是估计明年再搞一年 AI 数学题以后就搞不下去了，因为明年的结果只会是各大模型高考数学都是满分的成绩，再也拉不开区分度了！可能你会好奇今年各个模型的高考数学成绩如何，我觉得“机器之心”这篇《高考数学全卷重赛！一道题难倒所有大模型

来源：

18:51

之前大家都特别关注的大模型高考测试放出来之后，收到了很多的质疑：有人说o3降智了有人说用的客户端都是联网的，用 api 才是真实水平有人说没加入近期变强的的 Gemini 于是机器之心又搞了一次测试 - 用不降智的 o3 测试 - o3之外，用各家模型的 API 统一测试 - 加入人气很高的了 Gemini 2.5 Pro 结果…又是很意外 o3 虽然没降智，但前三都没进，只屈居第四

来源：

orange.ai

2025-02-01

20:05

求教：我不明白，为什么这么简单的一个题，o3-mini 和 deepseek-R1 都做不对？是因为对训练集数据过拟合了吗？错到这么离谱，已经有点抽象了。有懂的朋友可以解释下原因吗

来源：

howie.serious

相关信息

9个月前

北大“韦神”健康问题引发粉丝热议，粉丝数激增超2300万

9个月前

Google Gemini 2.5发布引发AI模型性价比热议

9个月前

高考梦魇：31年后依旧无法逃脱的焦虑

9个月前

OpenAI大幅降价，o3模型API调用费用骤降80%

9个月前

2025年跳水世界杯全红蝉遭遇下毒事件引发热议

9个月前

国足1：0绝杀巴林，荣誉之战告别世预赛

9个月前

AI高考数学测试：O3意外落后，Gemini夺冠引发热议

9个月前

#高考反思：名校情结下的教育之殇

9个月前

山东济宁高考考生撕毁试卷事件引发关注