软件开发里有一种叫 TDD(Test-Driven Development)的方式,简单讲,就是先写好测试用例,然后再写程序。每写一部分代码就立刻跑对应的测试,看能不能通过。能通过说明实现符合预期,不通过就说明有 bug。TDD 的好处在于,它让整个研发过程可验证、可回归,也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD,只不过测试用例变成了数据集(Dataset)。每一次模型迭代,本质上就是在跑新的单测(Benchmark)。MMLU 测知识广度,GSM8K 测逻辑推理,HumanEval 测编程能力,AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩,Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑,每一代 AI 都得交卷。 2025 可以说是智能体(Agent)元年,模型不再只靠会算、会说来评估,而是要能动手。要让一个 Agent 真正好用,光靠写 Prompt、加检索、拼上下文是不够的,它得能使用工具,能执行 Python、Shell、SQL,能感知状态、理解任务依赖,更要能在反馈中调整自己的行为。评估 Agent 好不好用,也就不能只看单轮问答,而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子,让 Agent 去修真实项目里的 Bug,看能否通过单测。OpenAI 的 MLE-bench 则更进一步,考察 Agent 在机器学习工程中的执行力,从读数据、清洗、编程、训练,到收集指标、分析再改进,形成一个完整的闭环。社区里还在探索更复杂的测试,比如 App-bench,看 Agent 是否能独立开发一个 Web 应用,从前端到后端再到部署上线;或者 Ops-bench,让它去处理运维任务,比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步,正在从“能思考”走向“能执行”。TDD 让软件工程可验证,而在 AI 世界,Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向,Benchmark 则刻画了行业标准与竞争格局。 未来的竞争,不再是谁的模型更聪明,而是谁的智能体更能干活。真正厉害的 AI,不一定语义最深、参数最多,而是那个能自己规划、自己验证、自己改进的 Agent。换句话说,AI 的未来不只是更聪明的脑子,而是更靠谱的手和脚,能想、能做、还能自己查错修正,这才是“用得上”的智能。
半步
3天前
🚀 对Open AI agent Builder的一些预测:Codex CLI与Agent Builder深度融合,专注“Agent开发Agent”领域,打破非专业用户的技术壁垒! 1. **Agent Builder:CLI代码框架的可视化外壳** Agent Builder将CLI生成的复杂代码架构(节点、逻辑、API调用)转化为直观的可视化工作流。非专业用户无需理解代码细节,通过拖拽调整代理行为,CLI则在后台确保代码高效执行。 2. **CLI:Agent Builder的开发引擎** CLI作为核心引擎,接收用户输入的上下文和需求,生成结构化代码框架,供Builder渲染为可视化节点。CLI还能优化代码、处理错误,确保代理逻辑健壮。 3. **双模式Agent Builder** - **Manual Mode**:如当前演示,用户手动设计节点和流程,CLI提供实时代码补全和调试支持。 - **Full Auto Mode(Agent Mode)**:用户仅提供需求(如“构建一个自动化客服代理”),CLI基于上下文自动生成完整节点图和流程逻辑,Builder呈现为可视化界面。后端代码统一由CLI生成,确保一致性与可扩展性。 4. **互相促进的闭环** - 非专业用户通过Builder的Auto Mode快速上手,生成代理原型; - 专业开发者用CLI微调代码逻辑,反馈到Builder优化可视化; - Agent Mode的迭代学习能力(基于用户反馈和CLI优化)让代理开发越来越智能,接近“Agent自编程”境界! 未来,CLI+Agent Builder将让任何人轻松构建复杂AI代理,近一步释放部分非技专业背景用户创造力!🌟 #OpenAI #CodexCLI #AgentBuilder #AIAgent
如果互联网的模式不改变,那这些巨大的算力中心要来干嘛? 你可以想象,几百亿美金的超算集群,结果每天只是被用来跑一些聊天模型,回答天气、写邮件、做点PPT——那基本就是 “超算闲置时代”。 我们看起来在用AI,但实际上,底层基础设施的潜力远没有被释放。 如果一个系统只能生成语言,而不能参与执行、验证、决策,那它的计算资源就永远只能“半开”。 很多人谈主权个人、科技领主这些概念,的确听上去像精英主义,但我始终觉得,基础设施的真正意义,是要让“非精英”也能使用而不自觉地受益。 互联网之所以改变了世界,是因为不需要你懂TCP/IP; 智能手机之所以普及,是因为不需要你懂通信协议。 真正的范式革命,永远不是“精英的逃逸”,而是“结构的下沉”。 它必须让普通人能无感接入、自然参与。 而今天很多人把 Web3 理解成代币经济,这其实太狭隘。 代币只是一个激励层,不是结构本身。 从更大的历史尺度看,Web3 代表的是一种 范式转变(paradigm shift)。 如果最终我们只是让“中心化的权力”换了个名字、把服务器搬到了链上、把账号换成钱包地址,那这不是革命,只是换皮。 维持现状,就是范式转移的失败。 很多大厂都尝试过,比如“元宇宙”就是一次试图定义新范式的尝试——但最后失败了。 为什么?因为它没有解决底层结构的问题。 “空间化的互联网”听上去浪漫,但本质上还是 Web2 模式的延伸,只不过把浏览器变成了虚拟头盔。 我有时候在想,也许我会给扎克伯格一个建议: 人的幸运值是有限的。 你能在19岁那年创造一个改变世界的平台,已经是概率奇迹。 但如果你在第二次范式转变中仍然沿用同一套逻辑,那好运也救不了系统性的老化。 同样地,Sam Altman 他们的成功,也取决于他们是否能真正突破范式。 如果他们只是让大模型成为更聪明的“黑箱”,那这条路的终点,就是另一个中心化的帝国。 到时候,模型对普通人来说,只是一个聊天搭子——高效,但空洞;强大,但封闭。 那我们到底缺什么? 表面上看,大语言模型已经具备了我们想要的一切:能理解自然语言、能推理、能生成、甚至能写代码。 听起来,这不就是我们说的“语义运行时”吗? 是的——表面上是。 但问题在于,它们只是模拟这些能力,而不是在结构上实现它们。 看起来像“理解”,但没有可验证的推理路径; 看起来像“智能”,但没有明确的逻辑框架。 本质上,它们仍然是“相关性机器”,而不是“因果性系统”。 所以,大模型真正的三个缺陷,是结构性的: 1️⃣ 有语义,却无结构。 LLM 的“理解”是隐性的,埋在几千亿个参数的权重里。 它能“说出”意义,但不能“展示”意义。 真正的语义系统,必须让意义是显性的、可组合、可验证的。 也就是说,你得能指出:“它为什么这样推理?”、“它依据了什么事实?” 今天的 LLM 是在语义层上说话,却还没有在语义层上思考。 2️⃣ 能生成信念,却无法提供证明。 它可以写合同、诊断问题、甚至模拟逻辑推理——但我们无法验证它的正确性。 它的输出没有来源(provenance),也没有可复现性。 今天问它一遍,明天再问一次,可能就是完全不同的答案。 而真正的可验证系统,必须像区块链那样,信任数学,而不是信任人。 现在的模型让我们信任“它”,这恰恰是 Web3 想摆脱的那种中心化信任。 3️⃣ 是语言界面,而非系统接口。 现在的 Prompt 体验很顺滑——你问,它答。 但它生成的结果是游离的,不接入任何可验证的系统。 没有智能合约,没有持久逻辑,没有数据溯源。 未来的 LLM 必须能直接组成系统,让“语言=行为”, 输入一句话,就能在规则透明的环境中触发实际执行。 这才是从“语言生成”到“结构调度”的飞跃。 这就是当前的断层: 我们已经拥有了强大的表达能力,却还没有可靠的结构信任。 AI 能生成知识,却不能证明知识;能模仿思维,却不能承担后果。 如果我们止步于此,就会重演一次中心化的轮回—— 这次掌握权力的,不是平台,而是模型。 真正的 Web3 精神,不是要建更大的模型,而是要建更透明的系统。 一个每一句话、每一个规则、每一次执行都可以被验证、重组、共享的开放智能网络。 那时,语言才不只是人机界面,而会成为智能的治理层—— 在这里,意义、逻辑与执行真正汇合为一体。 这才是范式转移的完成。 不是造更大的盒子,而是打破盒子。 From Useful to Trustworthy: When Language Becomes the Operating System