howie.serious2025-03-05 09:25:31gpt-4.5的 IQ 得分出来了,94分,似乎并不高(deepseek-R1 是 102 分)。那么,现在的llm,IQ分别是多少?即将发布的 o3,IQ 到底会有多高? 先看结果排名: o1 —— 124;o1 pro mode ——120; o3-mini——116; gpt-4o——91;gpt-4——80; Trackingai 网站上的 IQ 分数分为两套:线下IQ 测试,和线上#GPT-4.5#IQ得分#DeepSeek-R1
yesterday2025-02-13 13:31:17AI coding 的时候,如果想用推理模型,有条件尽量还是 o1 . 不用推理尽量还是 claude sonnet 3.5 . 这个黄金组合搭配到目前为止还没有一个能动摇的(你有 o3 的话也行) 我知道是人都想省点钱,我也会切换别的模型,但哪怕是 deepseek 满血版,在多个文件里跳来跳去,该出的错,那可怕的幻觉还是一个都不会少。 你不怕麻烦可以开一堆窗口,结合着用。想省事,提高效#AI#推理模型#DeepSeek
Simon2025-01-31 22:31:02R1 比 O1 真正优秀的地方在输出了CoT,让人感觉很厉害很值得信任。 如果把CoT禁掉,只看结果的话。可能和o1一样,用得人也不是那么多了#R1#O1#CoT
orange.ai2025-01-25 08:17:55R1+Sonnet:我们加起来才是最强的! 在 Aider 的最新多语言基准测试中测试中,R1+Sonnet 超越 o1 拿下第一。 R1 作为架构师, Claude Sonnet 作为编辑器,在 aider 多语言基准测试中设定了新的 SOTA(最先进技术水平)64.0%。 不仅超过了之前 o1 的 SOTA 总体成本还降低了 14 倍。 这件事很神奇,因为使用 o1+ Sonnet 无法#R1#sonnet#Aider
Michael Anti2025-01-06 04:41:27我感觉Claude和O1的网站做了很多的增强,因为Claude API和O1 API的水平真的不怎么行啊,看上去都不如4o。#Claude#O1#增强
AI进化论-花生2024-12-30 05:56:46一个建议,不一定对: 虽然deepseek是国产良心,我也很建议在做AI应用调用API时使用。 但是最好别接入Cursor作为默认模型使用,现在让AI编程跨过可用性临界点的依然有且只有Claude 3.5 sonnet,o1实际体感也不够好。为了节约成本或者支持国产做这个选择还是得不偿失。 测试这事让自媒体去干(比如我,我其实一般都懒得干了),大家实际在做AI编程的话就先关注自己要解决的问题#DeepSeek#国产良心#AI应用
宝玉2024-12-29 06:05:35网友分享: 你好宝老师,我想投稿大模型的使用体验。我是理工科,国内土博,材料专业。使用强度不是很高,但是集中分析的时候会连续追问和讨论。 关于推理模型,我想说说我的使用体验。我使用的较多的时gpt o1,O1mini,还有谷歌的新出的thinking。 我想说o1目前还是当之无愧的第一,因为具有很庞大的知识库。我使用都是在分析化学的情况下,比如红外图谱和核磁图谱的分析。然后O1是说的最靠谱。我#大模型#GPT#O1