方伟|Allen Zeng
1个月前
Tz
1个月前
文章标题:God is hungry for Context: First thoughts on o3 pro 1. 背景 2025 年 6 月 10 日,OpenAI 将 o3 系列降价 80% 并推出 o3-pro。作者 Ben Hylak 获得一周内测权限后撰文分享初体验。 2. “上帝饿了”类比 作者用“上帝渴望上下文”形容新一代推理模型:只有饱餐丰富且结构化的背景,它才会发挥真正威力。 3. 两种模型定位 当今 LLM 可分日常型(3.5 Sonnet、4o)与深度推理型(o3-pro、Claude Opus):前者陪聊与轻量任务,后者一次性解决复杂问题但速度慢、成本高。 4. 正确用法心路 作者曾对 o1 失望,后悟出“把它当报告生成器”:提供上下文→设定目标→一次生成结果。同思路下,o3-pro 更敏锐,但更依赖大量上下文。 5. 实测示例 作者与合伙人将公司全部策略会纪要、目标与语音备忘录喂给 o3-pro,请它制定未来规划,输出的细节足以重排公司优先级。 6. 工具调用能力 o3-pro 在“知道自己有哪些工具、何时提问人类、何时检索外部信息”上显著进步,体现了 OpenAI 的“垂直 RL”:不只教模型怎么用工具,还教它何时用哪种工具。 7. 不足与局限 上下文不足时,o3-pro 容易过度分析;直接执行(如写 ClickHouse SQL)偶尔不如基础 o3。它更像编排者而非纯执行者。 8. 与竞品对比 作者认为 o3-pro 输出“换了维度”,在回答深度与贴合度上全面超越 Claude Opus 与 Gemini 2.5 Pro;优势在于“模型-工具-策略”三位一体,而非规模。 9. Prompt 与 Harness 启示 成功关键仍是上下文与系统提示。优秀产品靠“缰绳”(模型+工具+记忆+其他策略)把模型能力对齐,而非仅靠模型本身。 10. 一句话总结 o3-pro = 更深层推理能力 × 更清醒的工具选择 × 更依赖大量高质量上下文;真正护城河正从“谁家参数多”转向“谁能给模型最合适的上下文与工具链”。
宝玉
1个月前
学好基本功,AI才能真正助你一臂之力 作者:Manda Putra 我最近一直在尝试把AI融入到日常工作中。必须承认,在处理像增删改查(CRUD)、数据解析这类琐碎任务时,AI确实是个神器。你只需要下达指令,它就能帮你搞定,极大地解放了生产力。但软件开发远不止于此,我们还需要整合系统、性能优化、技术研究,这些都需要真正的理解力。 今天在咖啡馆工作时,我旁边坐着一位同行。他也在用AI写代码,这很正常,我也用。但让我忍俊不禁的是,他为了解决一个极其基础的问题,竟然在和AI反复“拉扯”。那个问题是什么呢?仅仅是一个CSS元素的居中,或是一个忘记绑定`onClick`点击事件的低级Bug。 我内心的独白是:“简直可笑,花几分钟学一下CSS的Flexbox布局,不比你这样反复试错问AI快得多吗?” 我当然不会说出口,毕竟萍水相逢,我也不想打击一个年轻工程师的热情。但这情景让我深有感触。AI需要精确的上下文才能给出好答案,你反反复复地对它说“还没居中呢”,其实是在浪费你自己的生命。如果你从不想去理解代码片段之间是如何协同工作的,那你当初又何必选择软件开发这个行业呢? 这让我想起了乔纳森·布洛(Jonathan Blow)一直在警告的那个观点——我们行业的知识体系,正在从根基处“崩溃”。 布洛的核心忧虑是:现代软件建立在层层叠叠的抽象之上,如今的开发者,尤其是新人,越来越依赖顶层的框架和工具(现在又加上了AI),却对底层原理一窍不通。他们知道“怎样”让东西跑起来,却不知道“为什么”能跑起来。 当整个行业都建立在“知其然,不知所以然”的基础上时,我们创造的系统会变得异常脆弱。就像今天这位小哥,他遇到的只是个CSS问题。但如果未来遇到的一个底层性能瓶颈或安全漏洞呢?当没有人再理解事物的本质时,我们又该如何去修复和创造真正可靠的东西? 这正是“崩溃”的真实写照——它不是什么末日天启,而是我们作为一个整体,正在逐渐丧失对复杂技术的掌控力。 AI的出现加剧了这种割裂: * 对于经验丰富的开发者,AI是如虎添翼的杠杆,能将他们从重复劳动中解放出来,专注于更复杂的架构和创造。 * 对于新手而言,AI却成了一个“黑箱”或“许愿机”,让他们跳过了最关键的学习和试错过程,沦为只会提问的“提示工程师”,根基愈发不稳。 这是一个多么吊诡的世界。一方面技术在飞速进步,另一方面,从业者的平均基本功却在退化。 真心希望那位小哥能看到这篇文章,并明白,真正的成长,源于求知本身。