howie.serious2025-05-28 08:48:11红杉中国推出了ai agent的基准测试平台 xbench。目前o3在4项测试中全部排名第1,断档式领先。 对于这种新事物,我就不装“万事通”了:大家都是第一次听说,我刚在logseq里面新建了名为“xbench”的笔记,自己转述信息的质量不高,意义不大。 请看来自o3的详细且全面介绍🤣 #红杉中国#XBench#o3
Jesse Lau 遁一子2025-05-28 05:32:43o3目前我倒挺失望的,主要openai有时会很鸡贼 除了画图chatgpt还是老大,其他都退了 界面是Claude 大context处理gemini 长代码找bug还得gemini,有时需要新开个chat(目前可能算力不稳定),但o3(plus版)稍微长一点,想半天也就找到一个无关痛痒的bug 搜索的时候如果跟chatgpt无关,倒可以信任o3 但相关的话要注意,前两天我突然流量暴涨,#OpenAI#Claude#Gemini
LinearUncle2025-05-27 21:59:13o3超出期望的好用,日常o3搜索解答万物,其他AI搜索目前没人能望其项背,更多用法参考下方kate视频。 我一个sama和openAI的资深终身老黑粉都被o3折服。#o3#日常搜索#AI
howie.serious2025-05-02 16:30:01不论什么奇谈怪论,o3一下,立刻现出原形。 o3 咒语:critical-think this。 另一个咒语:fact-check this。 #奇谈怪论#o3#批判性思维
宝玉2025-04-21 13:18:15o3 使用案例:对比物品看谁更值得买 今天和孩子争论 LG 34" 曲面屏和 Asus 34" 曲面屏买那个好,互相都难说服谁,于是我就试了试 o3,发现它干这种事效果很不错,能分别检索参数,根据需求客观分析,甚至给出超出这两个选项的建议。 提示词参考:请帮我客观对比一下 LG 34" Curved Ultrawide WQHD MyView Smart Monitor - 3440 x 14#o3#购物#显示器对比
howie.serious2025-04-18 08:46:43o3的IQ分数出来了:线下测试 116分;线上测试 136分; 第二名是gemini 2.5 pro:线下115分;线上 128分; trackingai网站每周会测试一次llm的智商,然后取平均值;测试方法还分为线上和线下两种,一般线上测试比线下要高20分。 人类测智商一般也是线上的,当然,线下测试(例如去某医院心理科挂号排队测智商,然后提交给学校筛选🤣)更“权威”。 o3的IQ比我之前#AI智商测试#o3#线上线下测试
宝玉2025-04-17 05:55:18OpenAI重磅发布o3与o4-mini,开启AI“看图思考”新时代 北京时间4月16日,OpenAI再次引爆科技圈,正式发布了两款全新的人工智能推理模型——o3和o4-mini,首次让AI具备了“看图思考”的能力,进一步模糊了人类与AI之间的界限。 全新突破:“用眼睛”思考问题的AI 与传统的ChatGPT不同,这次的两款模型不仅能处理文本内容,更具备了处理图像信息的能力。举个例子,你只#OpenAI#o3#O4-Mini
宝玉2025-04-17 01:52:18o3 还真不错,可以直接基于你的要求去搜索写一篇质量不错的文章: OpenAI 今天(2025 年 4 月 16 日)正式发布了其最新“推理”旗舰 **o3** 与精简版 **o4‑mini**。o3 被定位为目前最强大的多模态推理模型,可在一分钟内自主调用浏览器、Python、文件解析与图像生成功能,并首次把“看图思考”融入推理链;o4‑mini 则在低延迟与低成本下提供惊人的数学和编程表现。#OpenAI#o3#O4-Mini
向阳乔木2025-04-17 01:42:44基于Techcrunch报道生成:OpenAI 推出两个人工智能 推理模型 o3 和 o4-mini。#ArtificialIntelligence#OpenAI#TechCrunch
howie.serious2025-03-05 09:25:31gpt-4.5的 IQ 得分出来了,94分,似乎并不高(deepseek-R1 是 102 分)。那么,现在的llm,IQ分别是多少?即将发布的 o3,IQ 到底会有多高? 先看结果排名: o1 —— 124;o1 pro mode ——120; o3-mini——116; gpt-4o——91;gpt-4——80; Trackingai 网站上的 IQ 分数分为两套:线下IQ 测试,和线上#GPT-4.5#IQ得分#DeepSeek-R1
virushuo2025-02-14 11:17:39o3 achieves a gold medal at the 2024 IOI ... the Codeforces score is at the 99.8-tile - only 199 humans are better than o3. o3已经有拿到信息学竞赛金牌的能力了,现在无论写码能力强弱刷题不刷,在ai面前一律平等了:都是弱鸡。#o3#信息学竞赛#金牌