阑夕

阑夕

0 关注者

2周前

继上次不少媒体拿大模型做了高考数学题以后,今年的高考全科真题测评结果也出来了,不过这次进行测评的是字节Seed团队,很明显能看出,他们对上次豆包的高考数学成绩是充满意外和惊喜的,也在摩拳擦掌想试试看它在全科试题里会表现如何。 老规矩,这次参战的5个大模型,仍然是市面上各种跑分都名列前茅的选手:Gemini 2.5Pro、DeepSeek R1、Claude 4、OpenAI o3,以及Seed1.6-Thinking。 高考其实是一种非常典型的测试场景,既能达到测试大模型泛化能力的目的,同时又兼具很高的实用性,也不难想象类似的使用场景,应该可以在教学、科研等方面发挥更大价值。 这次做的是「山东版」高考全科试卷,分文理科排名,为了确保公平,不仅评测方式完全对齐高考判卷方法,开放题由两名有资深联考判卷经验的高中老师进行评估,而且大模型也没有引入任何提示词工程,所有输入都是高考原题。 简单来说,这跟一名真实考生做卷子的环境几乎没有区别。 还是先说结论,大模型的整体能力目前已经能拿到一个相当高的分数,其中位列文、理科头名的豆包和Gemini,分别拿到了文科683和理科655分的成绩——这分数甚至可以冲击一下清北——截取一些测评结果里的关键信息给你们看看: - 不出意料的,大模型表现最好的学科是英语,几家测评成绩都很接近,难以拉开差距; - 普遍得分最低的学科是化学和生物,不过这跟试题本身有关,这两个学科涉及到的读图题很多,由于这套试题不是官方发布,所以有些图比较模糊,直接造成了大模型的失分; - 豆包在语文、英语、物理、地理、历史、政治六门学科里均拿到了最高分,其中文科类目里的地理、历史、政治优势明显,事实证明在不同语种的语境里,大模型的表现可能是天差地别的; - 与豆包相反,Gemini的理科表现很强劲,哪怕在图不清楚的情况下,化学、生物仍然拿到了最高分,它与豆包的路线差别很有观察价值; - 跟上次高考数学的测评结果略有差异,这次数学学科的榜首是DeepSeek,不过同样与其他大模型差距很小; - GPT o3又开始整活,上次它是唯一一个在数学客观题上丢分的大模型,结果这次语文作文直接写跑题了,这导致o3的语文分数成了所有大模型语数英主科15份成绩里,唯一一个没有过百的... - 在发现了化学、生物的读图问题后,测试团队找到了一份更高清版本的试卷,并且采用图文交织的方式把这两科重做了一遍,结果发现豆包通过这种方式,两科总分还能再提高30分左右,这就意味着图文同步的全模态推理,可以更大程度激发模型潜力,很值得深究; - 目前看来,大模型的视觉方案进步神速,但毕竟视觉的TOKENS消耗要比普通任务高得多,所以它眼下要解决的主要问题,还是如何降本; - 除了高考全科真题外,测试团队还进行了另一项印度理工学院JEE Advanced的考试测评,题目全部采用图片输入,总分仍然是Gemini和豆包领先,甚至两个模型的成绩,已经可以进到印度TOP 10了。 当然,大费周章做这么多测试,倒不是说它是测量大模型能力的唯一标准,比如今年年初AI行业知名的HLE基准刚出现的时候,各大主流模型的得分普遍低于10%,但HLE的开发团队也说了,按照历史规律来看,今年年底这个数字可能就会有50%。 我的意思是,无论人类如何绞尽脑汁让AI做题,把题目通关也都是假以时日的问题,但这不代表做题成绩就没有意义了,重要的是不断精进学习的过程,也是探索AI究竟能多大程度上为人类所用的必要步骤。 已经开始期待明年高考,AI会给我们一番怎样的景象了。