在近期的AI高考数学测试中,O3虽然未降智,但却屈居第四,未能进入前三名,引发了广泛的质疑与讨论。此次测试不仅使用了O3,还引入了其他模型的API进行统一评估,并加入了人气模型Gemini 2.5 Pro。结果显示,国内多款模型在推理能力上有显著提升,基本都能考上130分以上,其中Gemini在客观题测试中表现最佳。随着AI数学能力的提升,未来的测试结果可能会趋于满分,导致各模型之间的区分度降低。这一现象引发了对AI发展趋势的深入探讨,尤其是在教育领域的应用前景。
基于多源数据的智能分析与洞察
近年来,人工智能(AI)技术的快速发展引发了社会各界对其在教育领域应用的广泛关注。尤其是AI在高考数学等学科的表现,成为了检验其智能水平的重要指标。此次高考测试的争议主要源于不同模型在相同条件下的表现差异,反映出当前AI技术在推理能力、知识更新及应用场景适应性等方面的不足。此外,随着AI技术的不断进步,未来可能出现的满分现象将使得各模型之间的竞争变得更加激烈,甚至可能导致评价标准的重新审视。
看了一下机器之心的高考数学 AI 模型测试。 国内模型在过去一年的推理能力进步很真的挺大的,基本全部都能考上 130 多分。 豆包、DeepSeek的选择题和解答题得分都非常高,基本上超过了大多数人的水平。而且豆包在 APP 端和 API 端的分数都很高。 Gemini 确实强,在所有客观题的测试中排第一。 从 o3 的基准测试来看即使没有像国产模型的高考数学数据,也不应该这么低,API
一年之间 AI 做高考数学从 47 分到 145 分!AI 数学能力发生了什么?自从去年极客公园搞了次 AI 做数学题,今年各大媒体又开始让 AI 写作文做数学题了,但是估计明年再搞一年 AI 数学题以后就搞不下去了,因为明年的结果只会是各大模型高考数学都是满分的成绩,再也拉不开区分度了! 可能你会好奇今年各个模型的高考数学成绩如何,我觉得“机器之心”这篇《高考数学全卷重赛!一道题难倒所有大模型
之前大家都特别关注的大模型高考测试放出来之后,收到了很多的质疑: 有人说o3降智了 有人说用的客户端都是联网的,用 api 才是真实水平 有人说没加入近期变强的的 Gemini 于是机器之心又搞了一次测试 - 用不降智的 o3 测试 - o3之外,用各家模型的 API 统一测试 - 加入人气很高的了 Gemini 2.5 Pro 结果…又是很意外 o3 虽然没降智,但前三都没进,只屈居第四