看了一下机器之心的高考数学 AI 模型测试。国内模型在过去一年的推理能力进步很真的挺大的，基本全部都能考上 130 多分。豆包、DeepSeek的选择题和解答题得分都非常高，基本上超过了大多数人的水平。而且豆包在 APP 端和 API 端的分数都很高。 Gemini 确实强，在所有客观题的测试中排第一。从 o3 的基准测试来看即使没有像国产模型的高考数学数据，也不应该这么低，API

#高考 #人工智能 #数学 #AI测试 #机器之心 #豆包 #DeepSeek #Gemini #推理能力 #模型测试

相关新闻

Inty News

2小时前

微软隆重推出 Critique，M365 Copilot 中全新的多模型深度研究系统。可以同时使用多个模型来生成最佳的回复和报告。

小牛

8小时前

豆包成中国老年人的树洞了！ AI 这一刻价值呈现了一点点😵‍💫੯‧̀͡⬮\

迅哥儿

9小时前

我们这一代程序员，刚入行时赶上移动互联网爆发，35+即将被优化的时候赶上人工智能爆发，确实是时代的两次馈赠。

中国人权-Human Rights in China

11小时前

【中共“十五五”规划正借AI向全球输出数字威权】据知名国际事务期刊《外交学者》（The Diplomat）3月27日发表的深度分析文章（作者：Article19全球中国项目负责人Michael Caster），近期公布的中国第十五个五年规划（2026-2030）绝不仅仅是一份经济与科技蓝图，更是北京加速争夺“网络超级大国”地位、向全球输出数字审查的冲锋号。这不仅关乎技术竞争，更对全球言论自由构

Oasis Feng

17小时前

试了一下 Gemini 加持的 Google Spreadsheet，完全正确理解了我的需求并准确地完成了批量修改。之前弄这种间隔一列而且还在隐藏列中的公式调整简直就是体力活，自己机械操作这么十几列还挺容易出错。Gemini 简直堪称救星！🥹 就是现阶段这速度实在还有点慢…（Gemini 前后花了差不多一分钟才完成）

关联事件

AI高考数学测试：O3意外落后，Gemini夺冠引发热议

在近期的AI高考数学测试中，O3虽然未降智，但却屈居第四，未能进入前三名，引发了广泛的质疑与讨论。此次测试不仅使用了O3，还引入了其他模型的API进行统一评估，并加入了人气模型Gemini 2.5 Pro。结果显示，国内多款模型在推理能力上有显著提升，基本都能考上130分以上，其中Gemini在客观题测试中表现最佳。随着AI数学能力的提升，未来的测试结果可能会趋于满分，导致各模型之间的区分度降低。这一现象引发了对AI发展趋势的深入探讨，尤其是在教育领域的应用前景。