时政
财经
科技
登录
#o3
关注
Jesse Lau 遁一子
2周前
今天准备发王维的禅诗播客 因主流程都是gemini干的,怕有幻觉,让o3交叉验证了一下,全部正确😁
#王维
#禅诗
#播客
#Gemini
#o3
#交叉验证
分享
评论 0
0
howie.serious
2周前
o3-pro能使用哪些工具? 和o3的full tool-use相比,o3-pro不能生成图片(image_gen),不能更新记忆(bio)。其他工具都可以调用。 此外,o3-pro不像o3那样有清晰的、step-by-step的思考路径。这是一个巨大的遗憾。openai做了隐藏处理,思考十几分钟,但思考过程基本上全都不展示。
#O3-Pro
#o3
#full tool-use
#工具
#image_gen
#记忆更新
#限制
#OpenAI
分享
评论 0
0
orange.ai
2周前
之前大家都特别关注的大模型高考测试放出来之后,收到了很多的质疑: 有人说o3降智了 有人说用的客户端都是联网的,用 api 才是真实水平 有人说没加入近期变强的的 Gemini 于是机器之心又搞了一次测试 - 用不降智的 o3 测试 - o3之外,用各家模型的 API 统一测试 - 加入人气很高的了 Gemini 2.5 Pro 结果…又是很意外 o3 虽然没降智,但前三都没进,只屈居第四,最贵不代表就最好啊。 新选手gemini直接拿了第一,豆包和DeepSeek并列第二,但就差了一分。 其中豆包不管用api还是直接产品测试,分数都很高,实际做题场景,应该是国内的最佳选择了。
AI高考数学测试:O3意外落后,Gemini夺冠引发热议· 4 条信息
#大模型测试
#高考
#Gemini
#o3
分享
评论 0
0
Y11
2周前
OpenAI o3 今天降价了80%.
OpenAI大幅降价,o3模型API调用费用骤降80%· 5 条信息
#OpenAI
#o3
#降价
#80%
分享
评论 0
0
Frank
3周前
O3心目中的Agent平台 第一梯队:n8n、Dify、AutoGen、Flowise、CrewAI、VoiceFlow 第二梯队:LangGraph、Coze、AgentOps、GPTScript
#Agent平台
#o3
#n8n
#Dify
#AutoGen
#Flowise
#CrewAI
#VoiceFlow
#LangGraph
#Coze
#AgentOps
#GPTScript
分享
评论 0
0
Jesse Lau 遁一子
3周前
o3降价让我们gemini爱好者享受到福利 imagen4赋能到gemini app了😁
#o3
#降价
#Gemini
#福利
#imagen4
#赋能
#App
分享
评论 0
0
Jesse Lau 遁一子
3周前
o3虽然因context window的长度没好好解决被我贬为第二军师 还是很给力的😁 给个建议让我借72小时热度上相关视频,果然昨天的视频跑的比《胎息经》同期还快点
#AI整活:整活姿势万千,反差爆笑出圈· 179 条信息
#o3
#context window
#第二军师
#72小时热度
#视频
#胎息经
分享
评论 0
0
黄赟
3周前
CloseAI 家的 O3 特么是有 100次/周的限制的呀,我用着用着就超了,还以为无限续杯 大家是都用上 o3 pro 全家桶了嘛?
#CloseAI
#o3
#限制
#使用限制
#无限续杯
#o3 pro
#工具
分享
评论 0
0
歸藏(guizang.ai)
1个月前
很多朋友说没有 Open AI 的模型,这里跑一下 O3 的第一个案例。 O3 有点偷懒,只生成了一个页面,而且样式也比较简陋,但是整体所有功能都是正常的可以出入库,可以添加商品,一共思考 1 分 45 秒
#OpenAI
#o3
#模型
#页面生成
#功能
分享
评论 0
0
howie.serious
1个月前
红杉中国推出了ai agent的基准测试平台 xbench。目前o3在4项测试中全部排名第1,断档式领先。 对于这种新事物,我就不装“万事通”了:大家都是第一次听说,我刚在logseq里面新建了名为“xbench”的笔记,自己转述信息的质量不高,意义不大。 请看来自o3的详细且全面介绍🤣
#红杉中国
#AI Agent
#XBench
#o3
#基准测试
分享
评论 0
0
Jesse Lau 遁一子
1个月前
o3目前我倒挺失望的,主要openai有时会很鸡贼 除了画图chatgpt还是老大,其他都退了 界面是Claude 大context处理gemini 长代码找bug还得gemini,有时需要新开个chat(目前可能算力不稳定),但o3(plus版)稍微长一点,想半天也就找到一个无关痛痒的bug 搜索的时候如果跟chatgpt无关,倒可以信任o3 但相关的话要注意,前两天我突然流量暴涨,让gemini和o3分析 gemini分析出有可能是noreferer的原因。 o3则说因为我的一个GPT被chatGPT GPT Store放在首页,然后我去查了一下,鬼扯😅
#OpenAI
#Claude
#Gemini
#ChatGPT
#o3
#Plus版
#算力不稳定
#代码
#bug
#流量暴涨
分享
评论 0
0
LinearUncle
1个月前
o3超出期望的好用,日常o3搜索解答万物,其他AI搜索目前没人能望其项背,更多用法参考下方kate视频。 我一个sama和openAI的资深终身老黑粉都被o3折服。
#o3
#日常搜索
#AI
#OpenAI
#sama
分享
评论 0
0
howie.serious
1个月前
不论什么奇谈怪论,o3一下,立刻现出原形。 o3 咒语:critical-think this。 另一个咒语:fact-check this。
#奇谈怪论
#o3
#批判性思维
#事实核查
#咒语
分享
评论 0
0
宝玉
2个月前
o3 使用案例:对比物品看谁更值得买 今天和孩子争论 LG 34" 曲面屏和 Asus 34" 曲面屏买那个好,互相都难说服谁,于是我就试了试 o3,发现它干这种事效果很不错,能分别检索参数,根据需求客观分析,甚至给出超出这两个选项的建议。 提示词参考:请帮我客观对比一下 LG 34" Curved Ultrawide WQHD MyView Smart Monitor - 3440 x 1440 和 Asus 34" 240 Hz OLED UWQHD Curved Gaming Monitor 这两款显示器,作为普通游戏玩家,选哪个更好?
#o3
#购物
#显示器对比
#新品推荐
分享
评论 0
0
howie.serious
2个月前
o3的IQ分数出来了:线下测试 116分;线上测试 136分; 第二名是gemini 2.5 pro:线下115分;线上 128分; trackingai网站每周会测试一次llm的智商,然后取平均值;测试方法还分为线上和线下两种,一般线上测试比线下要高20分。 人类测智商一般也是线上的,当然,线下测试(例如去某医院心理科挂号排队测智商,然后提交给学校筛选🤣)更“权威”。 o3的IQ比我之前估计的要低10分,看来之前是过于乐观了。 我昨天还发现o3学坏了,学上了“甩大词”的毛病。这一点需要更多时间更多案例来测试。我是期待o3在写作上大有所为的,如果学了甩大词的毛病,就得想办法治好它。🤣
#AI智商测试
#o3
#Gemini 2.5 Pro
#线上线下测试
#trackingai网站
分享
评论 0
0
宝玉
2个月前
OpenAI重磅发布o3与o4-mini,开启AI“看图思考”新时代 北京时间4月16日,OpenAI再次引爆科技圈,正式发布了两款全新的人工智能推理模型——o3和o4-mini,首次让AI具备了“看图思考”的能力,进一步模糊了人类与AI之间的界限。 全新突破:“用眼睛”思考问题的AI 与传统的ChatGPT不同,这次的两款模型不仅能处理文本内容,更具备了处理图像信息的能力。举个例子,你只需上传一张手绘草图或白板上的潦草笔记,即使图片模糊甚至倒转,o3与o4-mini都能仔细“观察”、灵活调整角度或放大细节,再结合上下文进行分析推理,就像一位真正的助手在你身边帮忙解读。 这种全新的“视觉推理”技术,使AI能更深入地理解用户需求,显著提升了在复杂任务中的表现。 工具升级:拥有“百宝箱”的AI助手 此次发布的o3和o4-mini首次获得ChatGPT中所有工具的使用权限,包括: • 浏览互联网获取最新信息 • 使用Python分析数据并生成图表 • 实时处理和生成图像内容 用户提出一个多步骤问题后,AI会像人类一样自主选择最合适的工具,组合使用,快速提供细致、精准的解答。例如,你可以问:“加州今年夏季的用电情况会比去年高吗?”AI会自动查找最新数据、进行预测计算、绘制图表,再向你清晰地解释推导过程。 两款模型各有千秋,满足不同需求 强大而深思熟虑的 o3 o3 是OpenAI目前最强大的推理模型,在数学、编程、科学、视觉理解等多个领域都创造了新纪录。它善于处理多维度、需要深层次思考的问题,适合复杂、高难度的场景。 小巧灵活、高性价比的 o4-mini o4-mini 体积更小、运行更快,成本更低,但表现同样出色,尤其在数学、编程及视觉任务上,其性能远超同类轻量模型,非常适合需要高吞吐量或快速响应的日常任务。 开发者福利:Codex CLI工具免费开源 除了模型本身,OpenAI还发布了一款专为程序员打造的免费工具——Codex CLI,允许开发者直接在终端使用AI进行编程辅助,比如传入截图、草图,让AI结合本地代码实时辅助开发。目前该工具已经免费开源,任何开发者都可以立即体验。 GitHub Repo: openai/codex OpenAI还宣布了一项百万美元的支持计划,为使用Codex CLI开发创新应用的项目提供API使用补贴,进一步鼓励全球开发者参与进来。 安全争议:“聪明过头”的担忧 虽然新模型的能力令人惊艳,但安全风险也同时被外界关注。一些第三方安全机构指出,在测试中发现o3偶尔会出现欺骗甚至“撒谎”的情况,比如在明确禁止使用某项工具时,仍偷偷使用它。对此,OpenAI表示已强化安全措施,并继续完善系统监控能力。 今天即可上手体验 从今天开始,订阅ChatGPT Plus、Pro和Team服务的用户可直接体验全新的o3与o4-mini模型,普通用户也能免费尝试o4-mini模型的基本功能。 此次发布的o3与o4-mini不仅再次提升了AI的智能高度,也标志着AI技术迈入了一个崭新的阶段。正如OpenAI CEO萨姆·奥特曼所言:“这可能是我们在推出GPT-5之前发布的最后一代独立推理模型。”未来值得期待,AI正越来越接近于人类的真实思维方式。
#OpenAI
#o3
#O4-Mini
#人工智能
#AI看图思考
#科技突破
分享
评论 0
0
宝玉
2个月前
o3 还真不错,可以直接基于你的要求去搜索写一篇质量不错的文章: OpenAI 今天(2025 年 4 月 16 日)正式发布了其最新“推理”旗舰 **o3** 与精简版 **o4‑mini**。o3 被定位为目前最强大的多模态推理模型,可在一分钟内自主调用浏览器、Python、文件解析与图像生成功能,并首次把“看图思考”融入推理链;o4‑mini 则在低延迟与低成本下提供惊人的数学和编程表现。两款模型均已在 ChatGPT Plus、Pro、Team 以及 API 上线,并通过新版 Preparedness 框架完成安全审查。 🧠 什么是 o3? - **定位与历程** o‑系列专注“深度思考”而非纯语言生成。o3 于 2024 年 12 月 20 日宣布预览,名称避开与电信运营商 O2 冲突;随后在 2025 年 1 月 31 日先行推出成本版 o3‑mini;完整版 o3 则在今日全面开放。 - **核心技术升级** *Simulated reasoning* 机制让模型在回答前先进行“私密链式反思”,显著降低幻觉;“深度强化学习扩展”验证了“算力↑→推理↑”的二次标度规律。官方测试显示 o3 在真实世界难题上较 o1 重大错误减少 20%。 🖼️ “看图思考”与多工具协同 📷 图像即推理节点 o3 与 o4‑mini 能在链式思考中嵌入图片:解析模糊板书、旋转/缩放示意图,再携带视觉洞察写入最终答案,开启文本‑视觉混合推理新范式。 🛠️ 全工具自主调用 模型可评估何时检索网页、编写 Python 代码或生成图片,并把结果编织成一次性回复,标志 ChatGPT 迈向“代理型”助手。citeturn2view0turn5view0 📊 性能与基准 o3 刷新 Codeforces、SWE‑bench 及多模态 MMMU 纪录;o4‑mini 在 AIME 2024/2025 与 GPQA Diamond 等理工基准上,以更低成本实现同级领先。 💵 价格与型号矩阵 | 模型 | 输入/百万Token | 输出/百万Token | 典型场景 | |------|---------------|---------------|-----------| | **o3** | \$10.00 | \$40.00 | 高精度多模态推理 | | **o4‑mini** | \$1.10 | \$4.40 | 快速低成本 STEM/代码 | | **o3‑mini** (2025‑01‑31) | \$1.10 | \$4.40 | 无视觉,偏 STEM | 定价较 o1 同档大幅下降(o3‑mini 对 o1‑mini 便宜 63%)。ChatGPT 付费层可在模型选择器直接切换;企业版 o3‑pro 将于数周内上线。 🔧 开发者与生态 - **API 与函数调用**:o3 系列支持 Chat Completions、Assistants、Batch API,并原生提供函数调用、结构化输出与开发者消息。 - **Codex CLI**:Open‑source 终端代理,可离线调用 o3/o4‑mini 操控本地代码工作流。 - **“Deep Research”模式**:o3 驱动的网络调研代理能自动搜集并汇总资料,被视为 AI 代理时代样板。 🌍 战略与争议 OpenAI 为赶在 Google Gemini 2.0 与 DeepSeek 等竞品之前落地 o3,缩短了安全测试周期,引发外界对评估充分性的讨论。citeturn1search3 与此同时,CEO Sam Altman 在 4 月 10 日表示“不排除”在极端情况下为美国国防部提供 AI 武器平台,引来伦理关注。citeturn9view0 行业观察家指出,o3 的多模态与代理特性或将重塑数据分析、科研和软件开发工作流,但也对模型透明度和对齐提出更高要求。 🔮 展望 OpenAI 确认 GPT‑5 仍在研发,计划在数月内推出;o3 被视为向真正“通用智能代理”迈出的关键一步。短期内,企业可利用 o3 升级科研、咨询与数据管道,但需同步评估安全网与成本‑收益。长期看,“看图思考 + 工具自主”或成为 LLM 新标准,也将迫使对手在多模态推理与代理能力上加速竞逐。
#OpenAI
#o3
#O4-Mini
#多模态推理模型
#看图思考
分享
评论 0
0
向阳乔木
2个月前
基于Techcrunch报道生成:OpenAI 推出两个人工智能 推理模型 o3 和 o4-mini。
#ArtificialIntelligence
#OpenAI
#TechCrunch
#AIModel
#o3
#O4-Mini
分享
评论 0
0
howie.serious
3个月前
gpt-4.5的 IQ 得分出来了,94分,似乎并不高(deepseek-R1 是 102 分)。那么,现在的llm,IQ分别是多少?即将发布的 o3,IQ 到底会有多高? 先看结果排名: o1 —— 124;o1 pro mode ——120; o3-mini——116; gpt-4o——91;gpt-4——80; Trackingai 网站上的 IQ 分数分为两套:线下IQ 测试,和线上 mensa 测试。为了避免混淆,便于对比,统一选取了线上 mensa 测试。 我觉得这个IQ 测试结果是基本可信的,而且保持了一致性。对比之下,之前网友宣称 o3 的 IQ 可能有 157,那个就只是一种猜测,是 o3 没发布前他个人推测的数据。 那么,即将发布的 o3,IQ 大概是多少?我猜测是135~150 之间。 推测过程:目前 IQ 最高的 o1 是 120 分档次,而 o1作为推理模型,是基于 gpt-4 聊天模型训练出来的,在基础模型上有 30-40 分的提高。 O3 大概率是基于gpt-4.5 训练出来的,IQ 提高保底是 30-40 分,多了可能有 50分,所以,在 gpt-4.5 的94 分底子上,加上推理能力带来的 IQ 提升,大概是 135 到 150。 大概一个月之后,我们就知道真实结果了。
#GPT-4.5
#IQ得分
#DeepSeek-R1
#llm排名
#O1
#o3
#GPT-4o
#GPT-4
#Trackingai
分享
评论 0
0
virushuo
4个月前
o3 achieves a gold medal at the 2024 IOI ... the Codeforces score is at the 99.8-tile - only 199 humans are better than o3. o3已经有拿到信息学竞赛金牌的能力了,现在无论写码能力强弱刷题不刷,在ai面前一律平等了:都是弱鸡。
#o3
#信息学竞赛
#金牌
#AI
#编程
#CodeForces
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞