时政

财经

科技

#o3

2025-05-28 08:48:11

红杉中国推出了ai agent的基准测试平台 xbench。目前o3在4项测试中全部排名第1，断档式领先。对于这种新事物，我就不装“万事通”了：大家都是第一次听说，我刚在logseq里面新建了名为“xbench”的笔记，自己转述信息的质量不高，意义不大。请看来自o3的详细且全面介绍🤣

#红杉中国 #XBench #o3

Jesse Lau 遁一子

2025-05-28 05:32:43

o3目前我倒挺失望的，主要openai有时会很鸡贼除了画图chatgpt还是老大，其他都退了界面是Claude 大context处理gemini 长代码找bug还得gemini，有时需要新开个chat（目前可能算力不稳定），但o3（plus版）稍微长一点，想半天也就找到一个无关痛痒的bug 搜索的时候如果跟chatgpt无关，倒可以信任o3 但相关的话要注意，前两天我突然流量暴涨，

#OpenAI #Claude #Gemini

2025-05-27 21:59:13

o3超出期望的好用，日常o3搜索解答万物，其他AI搜索目前没人能望其项背，更多用法参考下方kate视频。我一个sama和openAI的资深终身老黑粉都被o3折服。

#o3 #日常搜索 #AI

2025-05-02 16:30:01

不论什么奇谈怪论，o3一下，立刻现出原形。 o3 咒语：critical-think this。另一个咒语：fact-check this。

#奇谈怪论 #o3 #批判性思维

2025-04-21 13:18:15

o3 使用案例：对比物品看谁更值得买今天和孩子争论 LG 34" 曲面屏和 Asus 34" 曲面屏买那个好，互相都难说服谁，于是我就试了试 o3，发现它干这种事效果很不错，能分别检索参数，根据需求客观分析，甚至给出超出这两个选项的建议。提示词参考：请帮我客观对比一下 LG 34" Curved Ultrawide WQHD MyView Smart Monitor - 3440 x 14

#o3 #购物 #显示器对比

2025-04-18 08:46:43

o3的IQ分数出来了：线下测试 116分；线上测试 136分；第二名是gemini 2.5 pro：线下115分；线上 128分； trackingai网站每周会测试一次llm的智商，然后取平均值；测试方法还分为线上和线下两种，一般线上测试比线下要高20分。人类测智商一般也是线上的，当然，线下测试（例如去某医院心理科挂号排队测智商，然后提交给学校筛选🤣）更“权威”。 o3的IQ比我之前

#AI智商测试 #o3 #线上线下测试

2025-04-17 05:55:18

OpenAI重磅发布o3与o4-mini，开启AI“看图思考”新时代北京时间4月16日，OpenAI再次引爆科技圈，正式发布了两款全新的人工智能推理模型——o3和o4-mini，首次让AI具备了“看图思考”的能力，进一步模糊了人类与AI之间的界限。全新突破：“用眼睛”思考问题的AI 与传统的ChatGPT不同，这次的两款模型不仅能处理文本内容，更具备了处理图像信息的能力。举个例子，你只

#OpenAI #o3 #O4-Mini

2025-04-17 01:52:18

o3 还真不错，可以直接基于你的要求去搜索写一篇质量不错的文章： OpenAI 今天（2025 年 4 月 16 日）正式发布了其最新“推理”旗舰 o3 与精简版 o4‑mini。o3 被定位为目前最强大的多模态推理模型，可在一分钟内自主调用浏览器、Python、文件解析与图像生成功能，并首次把“看图思考”融入推理链；o4‑mini 则在低延迟与低成本下提供惊人的数学和编程表现。

#OpenAI #o3 #O4-Mini

2025-04-17 01:42:44

基于Techcrunch报道生成：OpenAI 推出两个人工智能推理模型 o3 和 o4-mini。

#ArtificialIntelligence #OpenAI #TechCrunch

2025-03-05 09:25:31

gpt-4.5的 IQ 得分出来了，94分，似乎并不高（deepseek-R1 是 102 分）。那么，现在的llm，IQ分别是多少？即将发布的 o3，IQ 到底会有多高？先看结果排名： o1 —— 124；o1 pro mode ——120； o3-mini——116； gpt-4o——91；gpt-4——80； Trackingai 网站上的 IQ 分数分为两套：线下IQ 测试，和线上

#GPT-4.5 #IQ得分 #DeepSeek-R1

2025-02-14 11:17:39

o3 achieves a gold medal at the 2024 IOI ... the Codeforces score is at the 99.8-tile - only 199 humans are better than o3. o3已经有拿到信息学竞赛金牌的能力了，现在无论写码能力强弱刷题不刷，在ai面前一律平等了：都是弱鸡。

#o3 #信息学竞赛 #金牌

没有更多了 🤐