时政

财经

科技

#O1

2025-03-05 09:25:31

gpt-4.5的 IQ 得分出来了，94分，似乎并不高（deepseek-R1 是 102 分）。那么，现在的llm，IQ分别是多少？即将发布的 o3，IQ 到底会有多高？先看结果排名： o1 —— 124；o1 pro mode ——120； o3-mini——116； gpt-4o——91；gpt-4——80； Trackingai 网站上的 IQ 分数分为两套：线下IQ 测试，和线上

#GPT-4.5 #IQ得分 #DeepSeek-R1

2025-02-13 13:31:17

AI coding 的时候，如果想用推理模型，有条件尽量还是 o1 . 不用推理尽量还是 claude sonnet 3.5 . 这个黄金组合搭配到目前为止还没有一个能动摇的（你有 o3 的话也行）我知道是人都想省点钱，我也会切换别的模型，但哪怕是 deepseek 满血版，在多个文件里跳来跳去，该出的错，那可怕的幻觉还是一个都不会少。你不怕麻烦可以开一堆窗口，结合着用。想省事，提高效

#AI #推理模型 #DeepSeek

2025-01-31 22:31:02

R1 比 O1 真正优秀的地方在输出了CoT，让人感觉很厉害很值得信任。如果把CoT禁掉，只看结果的话。可能和o1一样，用得人也不是那么多了

2025-01-25 08:17:55

R1+Sonnet：我们加起来才是最强的！在 Aider 的最新多语言基准测试中测试中，R1+Sonnet 超越 o1 拿下第一。 R1 作为架构师， Claude Sonnet 作为编辑器，在 aider 多语言基准测试中设定了新的 SOTA（最先进技术水平）64.0%。不仅超过了之前 o1 的 SOTA 总体成本还降低了 14 倍。这件事很神奇，因为使用 o1+ Sonnet 无法
#R1 #sonnet #Aider

2025-01-06 04:41:27

我感觉Claude和O1的网站做了很多的增强，因为Claude API和O1 API的水平真的不怎么行啊，看上去都不如4o。

#Claude #O1 #增强

AI进化论-花生

2024-12-30 05:56:46

一个建议，不一定对：虽然deepseek是国产良心，我也很建议在做AI应用调用API时使用。但是最好别接入Cursor作为默认模型使用，现在让AI编程跨过可用性临界点的依然有且只有Claude 3.5 sonnet，o1实际体感也不够好。为了节约成本或者支持国产做这个选择还是得不偿失。测试这事让自媒体去干（比如我，我其实一般都懒得干了），大家实际在做AI编程的话就先关注自己要解决的问题

#DeepSeek #国产良心 #AI应用

2024-12-29 06:05:35

网友分享：你好宝老师，我想投稿大模型的使用体验。我是理工科，国内土博，材料专业。使用强度不是很高，但是集中分析的时候会连续追问和讨论。关于推理模型，我想说说我的使用体验。我使用的较多的时gpt o1，O1mini，还有谷歌的新出的thinking。我想说o1目前还是当之无愧的第一，因为具有很庞大的知识库。我使用都是在分析化学的情况下，比如红外图谱和核磁图谱的分析。然后O1是说的最靠谱。我

#大模型 #GPT #O1

没有更多了 🤐