歸藏(guizang.ai) 0 关注者 关注 3个月前 看了一下机器之心的高考数学 AI 模型测试。 国内模型在过去一年的推理能力进步很真的挺大的,基本全部都能考上 130 多分。 豆包、DeepSeek的选择题和解答题得分都非常高,基本上超过了大多数人的水平。而且豆包在 APP 端和 API 端的分数都很高。 Gemini 确实强,在所有客观题的测试中排第一。 从 o3 的基准测试来看即使没有像国产模型的高考数学数据,也不应该这么低,API #高考 #人工智能 #数学 #AI测试 #机器之心 #豆包 #DeepSeek #Gemini #推理能力 #模型测试 前往原网页查看