#模型性能

9个月前

QVQ-Max 可能是为数不多的在复杂表格识别和复原能力里最强的模型在这个我测试的表格中，存在多级表头，以及多个合并单元格和空单元格，打眼一看复杂度并不高，但在其他的模型中往往会出现表格数据粘连或者串行的情况，QVQ直接完美生成了对应的html，并且在它的think中也专门提出了以上需要注意的地方

#QVQ-Max #复杂表格识别 #模型性能 #表头 #单元格

9个月前

GPT-4.5 会带来推理模型的升级想象一下，每个 AI 模型都是一名努力学习的学生。每个学生的能力有高有低，有的懂得多，有的懂得少。这张图片就像是一场考试的成绩单，展示了不同的“学生”（模型）在高难度考试（GPQA基准测试，类似博士水平的知识问答）中的表现。在图片中，我们能清楚看到： - 最底层的基础模型（Base Models），类似于那些还没学会“如何思考”、只掌握了大量知识却不善于运用的学生。他们的成绩一般较低，比如： * GPT-3.5 得分只有28%，就像一个知识储备不足的学生。 * GPT-4o 稍强一些，有49%的成绩。 * 而最新的 GPT-4.5 更厉害，达到69%，比GPT-4o提升了整整20个百分点。这意味着 GPT-4.5 本身掌握的知识已经非常丰富，基础扎实。 - 右侧则是经过推理训练后的推理模型（Reasoning Models），也就是给这些“学生”增加了高效思考、分析和推理的能力，让他们能够更灵活、更聪明地解决复杂问题： * GPT-4.5 加上推理能力后，成绩瞬间飙升至85%~95%，展现出超凡的潜力。 * 原本基于 GPT-4o 的推理模型（如图中o1-mini、o3-mini）虽然也进步显著，但最终成绩（77%左右）显然不如基于 GPT-4.5 的潜力巨大。为什么基础能力（Base）这么重要呢？就好像一个学生，如果基础知识足够扎实，思考问题时才会更加深入准确。如果基础不牢，就算他再怎么聪明，也很难回答那些他根本没学过的知识——比如一个完全没学过古希腊历史的学生，即使逻辑推理再好，也答不出苏格拉底的哲学思想。由此我们可以推测，未来以 GPT-4.5 为基础建立的新一代推理模型，将达到前所未有的高水平，很可能将所有现有的高难度测试（比如PhD博士级的问题）都完美“攻克”，实现史无前例的突破。这也许就是 GPT-5，或者类似 GPT-4.5-o 系列的模型，将在不久的将来让我们惊艳。简单说来，GPT-4.5 就是一个极具天赋的“优等生”，只等着训练出顶尖的推理能力，一飞冲天！图源：见图片底部

#GPT-4.5 #推理模型 #AI升级 #模型性能 #GPQA

10个月前

GPT 4.5 终于发布了，Scaling Law 撞墙说的就是它？预训练的计算量是 GPT4 的10倍，但是基准测试只比 4o 好 5% Devin 的代码测试超过了 Claude 3.5，但是不如 Claude 3.7 国外网友在吹写作，但是也有人发现不如 DeepSeek R1 输入75美元，输出150美元/百万token，是其他模型的10-100倍。又贵，又慢，又不够好非常尴尬 Sam 说他刷分不行，但是有思想 emmm 不知道是不是幻觉

#GPT4.5发布 #ScalingLaw #基准测试 #Devin代码 #claude3.5 #Claude3.7 #国外网友评论 #写作能力 #DeepSeekR1 #模型性价比 #高成本 #模型性能