时政
财经
科技
登录
#模型性能
关注
GanymedeNil
3个月前
QVQ-Max 可能是为数不多的在复杂表格识别和复原能力里最强的模型 在这个我测试的表格中,存在多级表头,以及多个合并单元格和空单元格,打眼一看复杂度并不高,但在其他的模型中往往会出现表格数据粘连或者串行的情况,QVQ直接完美生成了对应的html,并且在它的think中也专门提出了以上需要注意的地方
#QVQ-Max
#复杂表格识别
#模型性能
#表头
#单元格
分享
评论 0
0
宝玉
3个月前
GPT-4.5 会带来推理模型的升级 想象一下,每个 AI 模型都是一名努力学习的学生。每个学生的能力有高有低,有的懂得多,有的懂得少。这张图片就像是一场考试的成绩单,展示了不同的“学生”(模型)在高难度考试(GPQA基准测试,类似博士水平的知识问答)中的表现。 在图片中,我们能清楚看到: - 最底层的基础模型(Base Models),类似于那些还没学会“如何思考”、只掌握了大量知识却不善于运用的学生。他们的成绩一般较低,比如: * GPT-3.5 得分只有28%,就像一个知识储备不足的学生。 * GPT-4o 稍强一些,有49%的成绩。 * 而最新的 GPT-4.5 更厉害,达到69%,比GPT-4o提升了整整20个百分点。这意味着 GPT-4.5 本身掌握的知识已经非常丰富,基础扎实。 - 右侧则是经过推理训练后的推理模型(Reasoning Models),也就是给这些“学生”增加了高效思考、分析和推理的能力,让他们能够更灵活、更聪明地解决复杂问题: * GPT-4.5 加上推理能力后,成绩瞬间飙升至85%~95%,展现出超凡的潜力。 * 原本基于 GPT-4o 的推理模型(如图中o1-mini、o3-mini)虽然也进步显著,但最终成绩(77%左右)显然不如基于 GPT-4.5 的潜力巨大。 为什么基础能力(Base)这么重要呢? 就好像一个学生,如果基础知识足够扎实,思考问题时才会更加深入准确。如果基础不牢,就算他再怎么聪明,也很难回答那些他根本没学过的知识——比如一个完全没学过古希腊历史的学生,即使逻辑推理再好,也答不出苏格拉底的哲学思想。 由此我们可以推测,未来以 GPT-4.5 为基础建立的新一代推理模型,将达到前所未有的高水平,很可能将所有现有的高难度测试(比如PhD博士级的问题)都完美“攻克”,实现史无前例的突破。这也许就是 GPT-5,或者类似 GPT-4.5-o 系列的模型,将在不久的将来让我们惊艳。 简单说来,GPT-4.5 就是一个极具天赋的“优等生”,只等着训练出顶尖的推理能力,一飞冲天! 图源:见图片底部
#GPT-4.5
#推理模型
#AI升级
#模型性能
#GPQA
分享
评论 0
0
orange.ai
4个月前
GPT 4.5 终于发布了,Scaling Law 撞墙说的就是它? 预训练的计算量是 GPT4 的10倍,但是基准测试只比 4o 好 5% Devin 的代码测试超过了 Claude 3.5,但是不如 Claude 3.7 国外网友在吹写作,但是也有人发现不如 DeepSeek R1 输入75美元,输出150美元/百万token,是其他模型的10-100倍。 又贵,又慢,又不够好 非常尴尬 Sam 说他刷分不行,但是有思想 emmm 不知道是不是幻觉
#GPT4.5发布
#ScalingLaw
#基准测试
#Devin代码
#claude3.5
#Claude3.7
#国外网友评论
#写作能力
#DeepSeekR1
#模型性价比
#高成本
#模型性能
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞