当下的 OpenClaw🦞 使用体验,其实还挺像当年 ChatGPT 4.x 刚出来时的阶段。能用,也确实能解决不少问题,但总感觉离人类自己上手的效果还差那么一点点。ChatGPT 4.x 很多时候需要通过各种 Prompt 调优,极力去压榨模型的智力。 OpenClaw 的具体表现就是,对 token 的消耗特别大。原因也很简单,它需要在一个模糊且复杂的问题集上找到算法路径。整个过程是一种探索式计算,需要不断试探、回溯和修正,对计算量和上下文都会有很大的消耗。 在当下这个阶段,想提升 OpenClaw 的“智商”,比较有效的办法,就是让它学习人类已经 SOP 化的一些操作。把人类已经验证过的路径直接变成能力模块,让 Agent 少走弯路。 例如使用浏览器,可以用 agent-browser 这一类组件。它的原理是把浏览器协议能力暴露成可编程接口,让模型可以直接读取 DOM、操作页面元素、执行脚本,用结构化的方式去控制浏览器,从而绕开很多低效的探索。 再比如对操作系统的使用,可以用 Hammerspoon。它通过 Lua 脚本桥接 macOS 的系统 API,让自动化脚本可以直接控制窗口、快捷键、菜单栏和应用状态。很多原本需要视觉识别、反复尝试的动作,会变成一次确定性的系统调用。 对于不懂技术底层的人来说,安装 find-skills 会很大程度提升提升 OpenClaw🦞 的水平,因为它具备寻找人类 SOP 的技能。 那 OpenClaw 的下一个“ChatGPT 5.x 时刻”什么时候会到来?我的判断是不会太远。 当前大量的 OpenClaw 使用数据,在 computers/tools/browsers use 等场景里已经积累了非常多的数据集。大模型会根据真实用户的使用路径,加速自己的 RL 训练。 DeepSeek 已经证明了一件事情,推理能力是可以通过训练被内化到模型里的。接下来会发生的事情,是工具使用能力也会被逐渐内化。未来的模型会逐渐形成自己的工具世界模型,多轮工具调用、最佳调用路径、失败恢复策略等等,都会内化为模型能力。 到了那个阶段,OpenClaw 的体验很可能会出现一次明显跃迁。 今天很多人还在用 Claude Code 这样的工具,通过 Prompt、脚本和各种技巧去驱动 Agent 工作。整个过程有点像在 ChatGPT 4.x 阶段做工程,每一步都很依赖经验。 在当下阶段,我也更愿意采用这种务实的使用方式:Claude Code + 打造“最锋利的剑”。 所谓最锋利的剑,其实就是把工具使用的最佳实践不断聚合和沉淀下来。把浏览器操作、系统自动化、代码生成、文件处理这些能力逐渐模块化,变成稳定可复用的能力层,让 Agentic 工作真正跑起来。
为了让交付更快、更稳,我通常会先和 AI 一起把需求的整体设计讨论清楚,包括前端交互设计、后端 MVC 结构、代码逻辑抽象、组件复用、开放模块设计、稳定性设计,以及架构和工程层面的优化。 一轮讨论结束之后,AI 通常会生成 3~5 个文件,对应不同维度的项目变更设计文档。 接下来,就会让 AI 根据项目复杂度选择合适的模型配置,同时开启多个进程跑 CLI,或者拉起多个子 Agent 一起干活。 这个模式的效率确实很高,不过带来的最大问题只有一个:钱不够烧。 我在 Codex 上买了两个账号轮着用,Github Copilot 也买了两个账号。用了一段时间之后发现,Codex 的 token 限额算是最亲民的,5 小时窗口 + 周限额窗口。周限额有时候看起来还挺随机,昨天还显示要等一周才能恢复,结果第二天一看,额度已经恢复到 100%。 Github Copilot 刚开始没有太注意,它其实是按照 Request 来限流的。有一次为了调一个细节,一晚上来回聊了很多次,直接把月额度干没了。后来慢慢摸索出一个用法:专门让 Copilot 处理大的需求,一个 Request 里塞进去好几个复杂任务,反而会觉得“真香”。 Google One 的 Family 方案其实也很香,用 Antigravity Tools 做反代就能跑。不过最近封号有点猛,现在基本不太敢用了。 当所有账号都被干到限流之后,也试过用国内的一些模型,比如 Kimi-k2.5、GLM-5。做一些常规的小需求其实问题不大,一旦遇到复杂问题,就很容易陷入无限递归循环: 排查 → 修复 → 没改好 → 继续排查。 这个时候就会特别怀念 Codex-5.3-xhigh 和 Claude-Opus-4.6。 另外,这几天刚出来的 Codex 5.4 表现更明显,之前需要排查好几轮才能解决的问题,它经常一把就能过。
Barret李靖
1个月前
在跟大模型对话的过程中,缓存经常是一个被忽略的对象,尤其是在大文档、多轮对话和长时间连续追问这些重上下文场景下。 以 Claude 的 5min prompt cache 为例,从缓存中读取 token 的价格只有不缓存的十分之一。假设你在针对一本 10 万字左右的书籍做问答,围绕同一份内容连续交互 50 轮: 不使用缓存时,每一轮都要把这 10 万字完整送进模型,总成本是 50 × S;使用缓存时,只在第一次写入付出 1.25 × S,后续 49 次读取只需 0.1 × S,总成本约为 6.15 × S。 换算下来,整体成本节约约 87.7%。 与此同时,每一轮响应时间也会明显变快,因为不需要反复携带、解析和对齐那一大坨背景内容,模型可以更快进入真正回答问题的阶段。 ChatGPT 和 Gemini 也做了类似的工作,只不过它们是在平台侧隐式处理的,Gemini 甚至还会因为请求命中 cache 而给用户退费😄 缓存除了省钱,也改变了模型“看待上下文”的方式。 没有缓存时,这些背景只是每一轮对话里的一段 prompt 文本,模型每次都会重新读一遍、重新权衡一遍,时间一长就容易出现理解松动和判断漂移。 而一旦进入缓存,这些内容就不再是普通输入了,它会变成推理开始前的前置状态,等于帮模型把世界观给固定了下来。 从机制上看,这正是 attention reuse。大模型在推理时,当前 token 会与既有上下文的 key-value 做注意力计算,缓存做的事情,是把稳定、不需要反复建模的上下文 KV 固化并复用。后续每一轮推理,都直接在这套已经对齐好的注意力状态之上展开,attention 不再浪费在“重新理解背景”,而是更集中地用于当前问题。
Barret李靖
5个月前
指挥 Codex CLI 干了四五个小时,把之前写的“网页音视频加速播放”油猴脚本改成了 Chrome 插件,已经提交商店审核。快速记录几点感受: 1. 聊四到五个小时,开始限制 token 了,不太够用,聊的过程中,感觉 token 消耗是个黑盒,不知道它在干什么 2. 当遇到报错时,会给它提供报错信息以及截图,但一开始总是有点不信任它能把问题搞定 3. 代码一旦改坏了,最想做的就是回到上一步,但上一步我给它安排了四五个任务,这时候要是只让它移除其中某段代码,又怕引出新的报错。事实证明,最稳妥的方式还是每个 feature 都独立进入 git 管理,否则回退会非常麻烦。feature 都进入 git 管理 4. codex 读代码读的实在是太认真了,以至于执行任务的速度特别慢,对于稍微复杂点的任务,或者同时布置了多个任务,需要 5~20min 才能搞定 5. 每次对话结束,我都希望它能自动把过程记录下来,但它做得并不好,总结的内容也很一般。 6. 80% 情况写出来的代码能直接跑;出错的那 20%,经过第二轮调教后大多也能跑通。 7. 看着它执行某个任务的空档,脑子里有了新的想法,会想让它并发执行很多任务,但又担心它处理不过来。 8. 95% 都是 AI 写代码,但有些问题它排查得实在是太慢了,会忍不住自己上手,比它要快很多。 9. 有部分任务它处理的并不好,例如让它生成 svg 图标,效果很差。 10. 表达清晰很重要,如果任务描述的过于抽象,它可能会理解错,如果跟他沟通的时候,具体到函数名或 DOM id,它的处理基本会更准确。 以上遇到的问题,基本都找到了好的解法,等后面整理了再分享。还是要多用,才能不断优化工具的使用。 总的来说,整个项目完成的速度已经是我自己的 5 倍以上,因为省略了学习陌生知识的时间。说实话,一个月花 2~3k 在 AI Coding 上,完全是值得的,相当于给自己找了个外包。
Barret李靖
5个月前
“AI 味”这件事,本质上是语言模型逃不掉的命运。因为它从诞生的第一刻起,就不是在“表达自己”,而是在“复刻统计平均”。模型的训练目标只是预测下一个词最可能是什么,它不会思考“我为什么要说这句话”,也没有任何主观意图。于是,它的语言天然带着一种“概率最优解”的味道——对,但平,准,但无魂。 更致命的是,后期的 RLHF 奖励机制会进一步放大这种味道。人类标注者倾向于给那些“中庸、安全、全面”的答案高分,于是模型被训练成了“八面玲珑”的选手:不表态、不激进、不出格。你经常看到的那些“既有优势,也有挑战”“具有重要意义”“未来前景广阔”这样的句式,就是这种中庸激励下的自然产物。 这也解释了为什么 AI 写出来的东西,即便形式上模仿得再像,读起来仍像是“没有血肉”的文字。它没有世界模型,没有时间感,也没有“我非说不可”的冲动,它生成的只是“统计上最合理”的答案,而非“我真心想说”的表达。这种根源性的差异,就像是合成香料和炖煮骨汤的差别——味道可能接近,但总有一股“假”的底色。 所以,AI 味并不是一个可以靠技巧完全去除的瑕疵,而是统计学习范式的体味。你可以靠风格微调、个性化训练和精心设计的提示词让它淡一点,但只要它的底层逻辑还是“预测最可能的词”,这种味道就永远不会彻底消失。换句话说,它可以越来越像人,但永远不知道“成为人”是什么感觉。
Barret李靖
5个月前
一篇论文要上顶刊、顶会,需要经历三个阶段: 1)首先是产出 preprint 初稿,初稿完成后发布到 arXiv 或 openReview 等平台,主动获得快速曝光,以吸引潜在的审稿人注意; 2)紧接着是向对应的期刊或会议投稿,会经历初审、正式审核、问题澄清等过程,顶会的拒稿率在 80% 左右; 3)最后完成修订和补充后才会被正式收录,整个流程通常持续半年甚至一年以上。 顶刊顶会只占论文总量的不到 10%,却贡献了超过 50% 的引用量;剩下的 90% 虽然很多是增量性研究或局部实验,没有里程碑式的突破,但也为后续研究提供了大量数据、方法和对比基线,价值同样不可忽视。 那“论文”到底是什么?从顶会顶刊的分类来看,它本质上是人类知识的一种系统化表达形式。以计算机科学为例,NeurIPS 偏重机器学习和人工智能基础理论,CVPR 聚焦计算机视觉,ICML 和 ICLR 涵盖模型架构、训练方法、优化算法等方向,SIGGRAPH 专注图形学与交互,而 Nature、Science 等综合性期刊则跨越学科边界,关注具有颠覆性意义的研究成果。可以说,论文汇聚了人类在 算法、模型、系统、工具、应用 等不同维度上的思考与探索。 我比较推荐开发者去多关注一些前沿、偏工程性的 Agent 论文,它们里面往往埋藏着大量新颖的思路和独到的启发,这些思路本质上就是为了解决工业界里那些“又难又深”的问题而提出的。