2025-06-12 15:03:13
文章标题:God is hungry for Context: First thoughts on o3 pro 1. 背景 2025 年 6 月 10 日,OpenAI 将 o3 系列降价 80% 并推出 o3-pro。作者 Ben Hylak 获得一周内测权限后撰文分享初体验。 2. “上帝饿了”类比 作者用“上帝渴望上下文”形容新一代推理模型:只有饱餐丰富且结构化的背景,它才会发挥真正威力。 3. 两种模型定位 当今 LLM 可分日常型(3.5 Sonnet、4o)与深度推理型(o3-pro、Claude Opus):前者陪聊与轻量任务,后者一次性解决复杂问题但速度慢、成本高。 4. 正确用法心路 作者曾对 o1 失望,后悟出“把它当报告生成器”:提供上下文→设定目标→一次生成结果。同思路下,o3-pro 更敏锐,但更依赖大量上下文。 5. 实测示例 作者与合伙人将公司全部策略会纪要、目标与语音备忘录喂给 o3-pro,请它制定未来规划,输出的细节足以重排公司优先级。 6. 工具调用能力 o3-pro 在“知道自己有哪些工具、何时提问人类、何时检索外部信息”上显著进步,体现了 OpenAI 的“垂直 RL”:不只教模型怎么用工具,还教它何时用哪种工具。 7. 不足与局限 上下文不足时,o3-pro 容易过度分析;直接执行(如写 ClickHouse SQL)偶尔不如基础 o3。它更像编排者而非纯执行者。 8. 与竞品对比 作者认为 o3-pro 输出“换了维度”,在回答深度与贴合度上全面超越 Claude Opus 与 Gemini 2.5 Pro;优势在于“模型-工具-策略”三位一体,而非规模。 9. Prompt 与 Harness 启示 成功关键仍是上下文与系统提示。优秀产品靠“缰绳”(模型+工具+记忆+其他策略)把模型能力对齐,而非仅靠模型本身。 10. 一句话总结 o3-pro = 更深层推理能力 × 更清醒的工具选择 × 更依赖大量高质量上下文;真正护城河正从“谁家参数多”转向“谁能给模型最合适的上下文与工具链”。
2025-06-12 15:03:13
2025-06-12 14:01:15
2025-06-12 12:00:00