宝玉

宝玉

#GPT-4.5#推理模型#AI升级

GPT-4.5 会带来推理模型的升级 想象一下,每个 AI 模型都是一名努力学习的学生。每个学生的能力有高有低,有的懂得多,有的懂得少。这张图片就像是一场考试的成绩单,展示了不同的“学生”(模型)在高难度考试(GPQA基准测试,类似博士水平的知识问答)中的表现。 在图片中,我们能清楚看到: - 最底层的基础模型(Base Models),类似于那些还没学会“如何思考”、只掌握了大量知识却不善于运用的学生。他们的成绩一般较低,比如: * GPT-3.5 得分只有28%,就像一个知识储备不足的学生。 * GPT-4o 稍强一些,有49%的成绩。 * 而最新的 GPT-4.5 更厉害,达到69%,比GPT-4o提升了整整20个百分点。这意味着 GPT-4.5 本身掌握的知识已经非常丰富,基础扎实。 - 右侧则是经过推理训练后的推理模型(Reasoning Models),也就是给这些“学生”增加了高效思考、分析和推理的能力,让他们能够更灵活、更聪明地解决复杂问题: * GPT-4.5 加上推理能力后,成绩瞬间飙升至85%~95%,展现出超凡的潜力。 * 原本基于 GPT-4o 的推理模型(如图中o1-mini、o3-mini)虽然也进步显著,但最终成绩(77%左右)显然不如基于 GPT-4.5 的潜力巨大。 为什么基础能力(Base)这么重要呢? 就好像一个学生,如果基础知识足够扎实,思考问题时才会更加深入准确。如果基础不牢,就算他再怎么聪明,也很难回答那些他根本没学过的知识——比如一个完全没学过古希腊历史的学生,即使逻辑推理再好,也答不出苏格拉底的哲学思想。 由此我们可以推测,未来以 GPT-4.5 为基础建立的新一代推理模型,将达到前所未有的高水平,很可能将所有现有的高难度测试(比如PhD博士级的问题)都完美“攻克”,实现史无前例的突破。这也许就是 GPT-5,或者类似 GPT-4.5-o 系列的模型,将在不久的将来让我们惊艳。 简单说来,GPT-4.5 就是一个极具天赋的“优等生”,只等着训练出顶尖的推理能力,一飞冲天! 图源:见图片底部

预览

相关信息

宝玉

宝玉

2025-04-25 14:14:05

一个 ChatGPT / Gemini 的实用技巧:检索并提取部分 PDF 内容 ChatGPT 和 Gemini 应该都内置了 PDF 工具,可以读取 PDF 内容,也可以帮你检索。如果你选的是推理模型的话(o3/o4-mini/Gemini 2.5 pro等)由于它们都有推理能力,所以可以对 PDF 先进行检索,然后去提取。 当然太长了也不行,毕竟受限于上下文窗口长度。 比如我有个 40

GanymedeNil

GanymedeNil

2025-03-28 19:17:54

QVQ-Max 可能是为数不多的在复杂表格识别和复原能力里最强的模型 在这个我测试的表格中,存在多级表头,以及多个合并单元格和空单元格,打眼一看复杂度并不高,但在其他的模型中往往会出现表格数据粘连或者串行的情况,QVQ直接完美生成了对应的html,并且在它的think中也专门提出了以上需要注意的地方

勃勃OC

勃勃OC

2025-03-16 16:29:56

百度公司推出了两款全新的人工智能模型——ERNIE 4.5 和 ERNIE X1,对 AI 行业产生了重大影响。ERNIE 4.5 是新一代多模态模型,在多个基准测试中超越了 GPT-4.5,具备更强的理解、生成、推理和记忆能力,并且成本更低。 该模型在处理多种数据类型方面表现出色,同时有效减少了 AI “幻觉”现象。ERNIE X1 的性能与 DeepSeek R1 相当,但成本仅为其一半,专

向阳乔木

向阳乔木

2025-03-09 09:36:25

要根据任务来确定用推理模型还是直觉模型。 也需要根据任务类型,选择是否联网。 有时联网,被语料污染,反而不如不开。

宝玉

宝玉

2025-03-09 08:04:43

一图看清 ChatGPT 不同模型和订阅之间的差别 - GPT-4o 是目前功能最全面的模型。 - GPT-4.5 紧随其后,可能是因为它与 GPT-4o 存在很多相似的机制。 - 推理(Reasoning)类的模型特别不一致,各种功能的开启情况也比较随机。 - 目前自定义 GPT(Custom GPT)功能只能使用 GPT-4o。

宝玉

宝玉

2025-03-07 23:52:23

GPT-4.5 的多模态还是挺强的

评论 0

相关信息

宝玉

宝玉

2025-04-25 14:14:05

一个 ChatGPT / Gemini 的实用技巧:检索并提取部分 PDF 内容 ChatGPT 和 Gemini 应该都内置了 PDF 工具,可以读取 PDF 内容,也可以帮你检索。如果你选的是推理模型的话(o3/o4-mini/Gemini 2.5 pro等)由于它们都有推理能力,所以可以对 PDF 先进行检索,然后去提取。 当然太长了也不行,毕竟受限于上下文窗口长度。 比如我有个 40

GanymedeNil

GanymedeNil

2025-03-28 19:17:54

QVQ-Max 可能是为数不多的在复杂表格识别和复原能力里最强的模型 在这个我测试的表格中,存在多级表头,以及多个合并单元格和空单元格,打眼一看复杂度并不高,但在其他的模型中往往会出现表格数据粘连或者串行的情况,QVQ直接完美生成了对应的html,并且在它的think中也专门提出了以上需要注意的地方

勃勃OC

勃勃OC

2025-03-16 16:29:56

百度公司推出了两款全新的人工智能模型——ERNIE 4.5 和 ERNIE X1,对 AI 行业产生了重大影响。ERNIE 4.5 是新一代多模态模型,在多个基准测试中超越了 GPT-4.5,具备更强的理解、生成、推理和记忆能力,并且成本更低。 该模型在处理多种数据类型方面表现出色,同时有效减少了 AI “幻觉”现象。ERNIE X1 的性能与 DeepSeek R1 相当,但成本仅为其一半,专

向阳乔木

向阳乔木

2025-03-09 09:36:25

要根据任务来确定用推理模型还是直觉模型。 也需要根据任务类型,选择是否联网。 有时联网,被语料污染,反而不如不开。

宝玉

宝玉

2025-03-09 08:04:43

一图看清 ChatGPT 不同模型和订阅之间的差别 - GPT-4o 是目前功能最全面的模型。 - GPT-4.5 紧随其后,可能是因为它与 GPT-4o 存在很多相似的机制。 - 推理(Reasoning)类的模型特别不一致,各种功能的开启情况也比较随机。 - 目前自定义 GPT(Custom GPT)功能只能使用 GPT-4o。

宝玉

宝玉

2025-03-07 23:52:23

GPT-4.5 的多模态还是挺强的