GanymedeNil2025-03-28 19:17:54QVQ-Max 可能是为数不多的在复杂表格识别和复原能力里最强的模型 在这个我测试的表格中,存在多级表头,以及多个合并单元格和空单元格,打眼一看复杂度并不高,但在其他的模型中往往会出现表格数据粘连或者串行的情况,QVQ直接完美生成了对应的html,并且在它的think中也专门提出了以上需要注意的地方 #QVQ-Max#复杂表格识别#模型性能
宝玉2025-03-04 08:59:12GPT-4.5 会带来推理模型的升级 想象一下,每个 AI 模型都是一名努力学习的学生。每个学生的能力有高有低,有的懂得多,有的懂得少。这张图片就像是一场考试的成绩单,展示了不同的“学生”(模型)在高难度考试(GPQA基准测试,类似博士水平的知识问答)中的表现。 在图片中,我们能清楚看到: - 最底层的基础模型(Base Models),类似于那些还没学会“如何思考”、只掌握了大量知识却不善于运#GPT-4.5#推理模型#AI升级
orange.ai2025-02-28 08:05:37GPT 4.5 终于发布了,Scaling Law 撞墙说的就是它? 预训练的计算量是 GPT4 的10倍,但是基准测试只比 4o 好 5% Devin 的代码测试超过了 Claude 3.5,但是不如 Claude 3.7 国外网友在吹写作,但是也有人发现不如 DeepSeek R1 输入75美元,输出150美元/百万token,是其他模型的10-100倍。 又贵,又慢,又不够好 非常尴尬#GPT4.5发布#ScalingLaw#基准测试