howie.serious

howie.serious

#GPT-4.5#IQ得分#DeepSeek-R1

gpt-4.5的 IQ 得分出来了,94分,似乎并不高(deepseek-R1 是 102 分)。那么,现在的llm,IQ分别是多少?即将发布的 o3,IQ 到底会有多高? 先看结果排名: o1 —— 124;o1 pro mode ——120; o3-mini——116; gpt-4o——91;gpt-4——80; Trackingai 网站上的 IQ 分数分为两套:线下IQ 测试,和线上 mensa 测试。为了避免混淆,便于对比,统一选取了线上 mensa 测试。 我觉得这个IQ 测试结果是基本可信的,而且保持了一致性。对比之下,之前网友宣称 o3 的 IQ 可能有 157,那个就只是一种猜测,是 o3 没发布前他个人推测的数据。 那么,即将发布的 o3,IQ 大概是多少?我猜测是135~150 之间。 推测过程:目前 IQ 最高的 o1 是 120 分档次,而 o1作为推理模型,是基于 gpt-4 聊天模型训练出来的,在基础模型上有 30-40 分的提高。 O3 大概率是基于gpt-4.5 训练出来的,IQ 提高保底是 30-40 分,多了可能有 50分,所以,在 gpt-4.5 的94 分底子上,加上推理能力带来的 IQ 提升,大概是 135 到 150。 大概一个月之后,我们就知道真实结果了。

预览
预览

相关信息

Gorden Sun

Gorden Sun

2025-05-03 10:37:19

还是多模态的模型好,GPT-4o可以同时兼顾绘画和语义。

howie.serious

howie.serious

2025-05-02 16:30:01

不论什么奇谈怪论,o3一下,立刻现出原形。 o3 咒语:critical-think this。 另一个咒语:fact-check this。

Jamez Bondos

Jamez Bondos

2025-05-01 13:19:12

💡 Awesome GPT-4o Images 项目地址: 💡 案例 77 使用的提示词: "一枚精致的水晶球静静摆放在窗户旁温暖柔和的桌面上...内部自然地呈现出一个以【嫦娥奔月】为主题的迷你立体世界..."

宝玉

宝玉

2025-04-21 13:18:15

o3 使用案例:对比物品看谁更值得买 今天和孩子争论 LG 34" 曲面屏和 Asus 34" 曲面屏买那个好,互相都难说服谁,于是我就试了试 o3,发现它干这种事效果很不错,能分别检索参数,根据需求客观分析,甚至给出超出这两个选项的建议。 提示词参考:请帮我客观对比一下 LG 34" Curved Ultrawide WQHD MyView Smart Monitor - 3440 x 14

宝玉

宝玉

2025-04-17 05:55:18

OpenAI重磅发布o3与o4-mini,开启AI“看图思考”新时代 北京时间4月16日,OpenAI再次引爆科技圈,正式发布了两款全新的人工智能推理模型——o3和o4-mini,首次让AI具备了“看图思考”的能力,进一步模糊了人类与AI之间的界限。 全新突破:“用眼睛”思考问题的AI 与传统的ChatGPT不同,这次的两款模型不仅能处理文本内容,更具备了处理图像信息的能力。举个例子,你只

宝玉

宝玉

2025-04-17 01:52:18

o3 还真不错,可以直接基于你的要求去搜索写一篇质量不错的文章: OpenAI 今天(2025 年 4 月 16 日)正式发布了其最新“推理”旗舰 **o3** 与精简版 **o4‑mini**。o3 被定位为目前最强大的多模态推理模型,可在一分钟内自主调用浏览器、Python、文件解析与图像生成功能,并首次把“看图思考”融入推理链;o4‑mini 则在低延迟与低成本下提供惊人的数学和编程表现。

评论 0

相关信息

Gorden Sun

Gorden Sun

2025-05-03 10:37:19

还是多模态的模型好,GPT-4o可以同时兼顾绘画和语义。

howie.serious

howie.serious

2025-05-02 16:30:01

不论什么奇谈怪论,o3一下,立刻现出原形。 o3 咒语:critical-think this。 另一个咒语:fact-check this。

Jamez Bondos

Jamez Bondos

2025-05-01 13:19:12

💡 Awesome GPT-4o Images 项目地址: 💡 案例 77 使用的提示词: "一枚精致的水晶球静静摆放在窗户旁温暖柔和的桌面上...内部自然地呈现出一个以【嫦娥奔月】为主题的迷你立体世界..."

宝玉

宝玉

2025-04-21 13:18:15

o3 使用案例:对比物品看谁更值得买 今天和孩子争论 LG 34" 曲面屏和 Asus 34" 曲面屏买那个好,互相都难说服谁,于是我就试了试 o3,发现它干这种事效果很不错,能分别检索参数,根据需求客观分析,甚至给出超出这两个选项的建议。 提示词参考:请帮我客观对比一下 LG 34" Curved Ultrawide WQHD MyView Smart Monitor - 3440 x 14

宝玉

宝玉

2025-04-17 05:55:18

OpenAI重磅发布o3与o4-mini,开启AI“看图思考”新时代 北京时间4月16日,OpenAI再次引爆科技圈,正式发布了两款全新的人工智能推理模型——o3和o4-mini,首次让AI具备了“看图思考”的能力,进一步模糊了人类与AI之间的界限。 全新突破:“用眼睛”思考问题的AI 与传统的ChatGPT不同,这次的两款模型不仅能处理文本内容,更具备了处理图像信息的能力。举个例子,你只

宝玉

宝玉

2025-04-17 01:52:18

o3 还真不错,可以直接基于你的要求去搜索写一篇质量不错的文章: OpenAI 今天(2025 年 4 月 16 日)正式发布了其最新“推理”旗舰 **o3** 与精简版 **o4‑mini**。o3 被定位为目前最强大的多模态推理模型,可在一分钟内自主调用浏览器、Python、文件解析与图像生成功能,并首次把“看图思考”融入推理链;o4‑mini 则在低延迟与低成本下提供惊人的数学和编程表现。