时政
财经
科技
登录
#O1
关注
howie.serious
3个月前
gpt-4.5的 IQ 得分出来了,94分,似乎并不高(deepseek-R1 是 102 分)。那么,现在的llm,IQ分别是多少?即将发布的 o3,IQ 到底会有多高? 先看结果排名: o1 —— 124;o1 pro mode ——120; o3-mini——116; gpt-4o——91;gpt-4——80; Trackingai 网站上的 IQ 分数分为两套:线下IQ 测试,和线上 mensa 测试。为了避免混淆,便于对比,统一选取了线上 mensa 测试。 我觉得这个IQ 测试结果是基本可信的,而且保持了一致性。对比之下,之前网友宣称 o3 的 IQ 可能有 157,那个就只是一种猜测,是 o3 没发布前他个人推测的数据。 那么,即将发布的 o3,IQ 大概是多少?我猜测是135~150 之间。 推测过程:目前 IQ 最高的 o1 是 120 分档次,而 o1作为推理模型,是基于 gpt-4 聊天模型训练出来的,在基础模型上有 30-40 分的提高。 O3 大概率是基于gpt-4.5 训练出来的,IQ 提高保底是 30-40 分,多了可能有 50分,所以,在 gpt-4.5 的94 分底子上,加上推理能力带来的 IQ 提升,大概是 135 到 150。 大概一个月之后,我们就知道真实结果了。
#GPT-4.5
#IQ得分
#DeepSeek-R1
#llm排名
#O1
#o3
#GPT-4o
#GPT-4
#Trackingai
分享
评论 0
0
yesterday
4个月前
AI coding 的时候,如果想用推理模型,有条件尽量还是 o1 . 不用推理尽量还是 claude sonnet 3.5 . 这个黄金组合搭配到目前为止还没有一个能动摇的(你有 o3 的话也行) 我知道是人都想省点钱,我也会切换别的模型,但哪怕是 deepseek 满血版,在多个文件里跳来跳去,该出的错,那可怕的幻觉还是一个都不会少。 你不怕麻烦可以开一堆窗口,结合着用。想省事,提高效率,最好还是o1 + sonnet 3.5 ,明显省很多事。 有多省呢? 你如果像我一样连续编码 3 小时,你换别的模型,你会发现很可能直接 4-5 个小时去了。一点不夸张。
#AI
#推理模型
#Claude Sonnet 3.5
#DeepSeek
#O1
#效率
#模型选择
#幻觉
分享
评论 0
0
Simon
5个月前
R1 比 O1 真正优秀的地方在输出了CoT,让人感觉很厉害很值得信任。 如果把CoT禁掉,只看结果的话。可能和o1一样,用得人也不是那么多了
#R1
#O1
#CoT
#信任
#输出
#使用者
分享
评论 0
0
orange.ai
5个月前
R1+Sonnet:我们加起来才是最强的! 在 Aider 的最新多语言基准测试中测试中,R1+Sonnet 超越 o1 拿下第一。 R1 作为架构师, Claude Sonnet 作为编辑器,在 aider 多语言基准测试中设定了新的 SOTA(最先进技术水平)64.0%。 不仅超过了之前 o1 的 SOTA 总体成本还降低了 14 倍。 这件事很神奇,因为使用 o1+ Sonnet 无法超越 o1 自己。 背景信息: Aider 支持使用一对模型进行编码 架构师模型被要求描述如何解决编码问题。思考/推理模型通常在这个角色中表现良好。 编辑器模型接收到架构师的设计方案,并被要求生成特定的代码编辑指令,以将这些更改应用到现有的源文件中。
#R1
#sonnet
#Aider
#多语言基准测试
#SOTA
#O1
分享
评论 0
0
Michael Anti
5个月前
我感觉Claude和O1的网站做了很多的增强,因为Claude API和O1 API的水平真的不怎么行啊,看上去都不如4o。
#Claude
#O1
#增强
#API
分享
评论 0
0
AI进化论-花生
6个月前
一个建议,不一定对: 虽然deepseek是国产良心,我也很建议在做AI应用调用API时使用。 但是最好别接入Cursor作为默认模型使用,现在让AI编程跨过可用性临界点的依然有且只有Claude 3.5 sonnet,o1实际体感也不够好。为了节约成本或者支持国产做这个选择还是得不偿失。 测试这事让自媒体去干(比如我,我其实一般都懒得干了),大家实际在做AI编程的话就先关注自己要解决的问题,不用关注那么多噪音。
#DeepSeek
#国产良心
#AI应用
#API
#Cursor
#默认模型
#AI编程
#Claude 3.5
#sonnet
#O1
#成本
#支持国产
#自媒体
#解决问题
分享
评论 0
0
宝玉
6个月前
网友分享: 你好宝老师,我想投稿大模型的使用体验。我是理工科,国内土博,材料专业。使用强度不是很高,但是集中分析的时候会连续追问和讨论。 关于推理模型,我想说说我的使用体验。我使用的较多的时gpt o1,O1mini,还有谷歌的新出的thinking。 我想说o1目前还是当之无愧的第一,因为具有很庞大的知识库。我使用都是在分析化学的情况下,比如红外图谱和核磁图谱的分析。然后O1是说的最靠谱。我结合文献和O1聊我的推理,基本就能把图谱分析的七七八八差不多。但是o1mini不精通化学结构导致理解不了复杂化学结构,谷歌的thinking也一样对化学不够精通,比如今天核磁分析时就弄混了ppm高低和上下场的关系。而o1可以一直正确的分析推理。 以我的认知我认为,知识库的丰富程度极大程度决定了好用与否。最近新出的推理模型,由于缺乏知识库,测试发现推理的化学结果大部分都不对。目前我只有用o1的时候很少发现错误。所以可能高成本的模型还是更有实际价值,而针对推理方面雕花的可能还是炫技更多一些。
#大模型
#GPT
#O1
#O1mini
#谷歌thinking
#推理模型
#材料专业
#分析化学
#红外图谱
#核磁图谱
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞