关键人物/组织

在近期的AI高考数学测试中，O3虽然未降智，但却屈居第四，未能进入前三名，引发了广泛的质疑与讨论。此次测试不仅使用了O3，还引入了其他模型的API进行统一评估，并加入了人气模型Gemini 2.5 Pro。结果显示，国内多款模型在推理能力上有显著提升，基本都能考上130分以上，其中Gemini在客观题测试中表现最佳。随着AI数学能力的提升，未来的测试结果可能会趋于满分，导致各模型之间的区分度降低。这一现象引发了对AI发展趋势的深入探讨，尤其是在教育领域的应用前景。

AI 智能分析

基于多源数据的智能分析与洞察

此次事件围绕AI模型在高考数学测试中的表现展开，反映了AI技术的快速发展及其在教育领域的应用潜力。最初的测试引发了对模型能力的质疑，随后通过多次测试和比较，逐步揭示了各大模型的真实水平和进步情况。

事件发展趋势

• AI模型在高考数学测试中的表现逐步提高。
• Gemini模型在各项测试中表现突出，成为新的标杆。
• AI技术在教育领域的应用逐渐深入，影响学习方式和教育评估。

关键洞察

• AI的推理能力和数学能力显著提升，可能会导致未来的测试缺乏区分度。
• 不同模型在相同任务下的表现差异，反映了技术发展的不均衡性。
• AI在教育领域的应用将重塑传统学习和评估方式。

政策建议

• 未来的测试应考虑AI模型的进步，设计更具挑战性的题目。
• 教育者应关注AI技术对学习方式的影响，合理利用AI辅助教学。
• 对AI模型的评估应更加全面，考虑其在不同情境下的表现。

AI 分析基于公开数据，仅供参考，不构成任何建议

来源

gemini 3.0 pro 的 IQ 分数出来了：历史上所有 LLM 的最高分！（IQ 测试分为两档：门萨版测试和线下/离线版测试。离线版的题目是全新设计且保密的，所有 LLM 都没看过，所以不存在背答案、或模型训练时见过等问题。通常情况下，离线版的 IQ 也会低 10～20 分。）离线版测试，gemini 3.0 pro 的 IQ 是历史最高分，130 分；门萨测试，gemini

howie.serious

Gemini3.0测试-选题创作准确度、严谨度、发散能力足够

素人极客-Amateur Geek

AI都干不出来这事

Ken Wong

全部显示

事件时间线

2025-11-18