Kai
3周前
Kai
4周前
OpenClaw/Clawdbot作者 Peter Steinberger 讲了一个让他顿悟的瞬间。 他给自己的clawdbot发了条语音消息,然后才反应过来:我根本没做语音功能啊。但"正在输入"的指示器亮了。十秒后,agent若无其事地回复了。 Peter问它:你怎么做到的? Agent的回答让他震住了:你发的消息只有一个文件链接,没有扩展名。我查了文件头,发现是Opus格式。用你Mac上的FFmpeg转成Wave。想用Whisper但没装,还报错了。不过我翻了翻发现你环境变量里有OpenAI的key,就用curl调了API拿到转写,然后回复你了。 这个故事的意义在于,这不是预设好的workflow,不是写好的代码,是agent在遇到一个从未见过的问题时,自己想办法把链路串起来。文件头分析、格式转换、找可用工具、翻环境变量、调第三方API,一气呵成。 Peter说了一句话我很认同:这些东西是该死的聪明、足智多谋的野兽,只要你真的赋予它们力量。 "if you actually give them the power"才是关键。大多数人还在用AI写个总结、改个文案,把它当高级搜索引擎用。但当你给它shell权限,给它访问你本地工具链的能力,它展现出的自主探索完成任务能力完全是另一个量级。 与此同时,行业里有一大批人在反方向努力。有人在绞尽脑汁省token,精心设计让AI 更少思考,生怕多花几分钱。还觉得模型做事太慢,自己来设计一些流程替代 AI 的思考探索,美其名曰加速。这种思路本质上是把一个足智多谋的野兽关进笼子里,然后抱怨它不够聪明。 更神奇的是,市面上95%的软件压根就不是为面向智能设计的。还是传统思路:产品经理写PRD,开发者把逻辑一条条写死在代码里,用户只能在预设的按钮和流程里点来点去。这些软件在AI时代就像是用打孔纸带写程序,技术上能用,但完全错过了这个时代真正的可能性。 --- 注,这段切片是我丢下一句话给 claude code 完成的下载切片添加字幕,只是提出要求,没有任何 Skills,没有告诉他怎么做。
Kai
4周前
从 Clawdbot/Moltbot 之父 steipete 在 GitHub 上 2025 年中开始的代码提交记录可以看到,他的所有开发都在为同一个目标服务:让 AI 真正能操控计算机(Mac) 打造 CLI 武器库 他批量开发各种命令行工具,每个工具做好一件事: - bird 读写 Twitter/X - gifgrep 搜索 GIF - gogcli 访问 Google Workspace 全家桶 - summarize 把任何 URL、YouTube、播客变成摘要 这些都是给 Agent 准备的"手脚"。 他自己就是 Coding Agent 重度用户,所以顺手解决了自己的痛点: - VibeTunnel:把浏览器变成终端,出门在外也能远程操控 Agent - CodexBar:菜单栏实时显示 token 消耗——即便不差钱,也要清楚钱花在哪 - Poltergeist:通用热重载工具,任何语言的项目都能自动重建 连接物理世界 - 海外外卖平台有 API?那就写个 ordercli 查订单 - 家里有摄像头?camsnap 搞定 RTSP/ONVIF 协议,截图、录像、动作检测一条龙 - Sonos 音箱?sonoscli 实现发现、分组、队列、播放 Spotify - 想用语音唤醒 Mac?Brabble 本地转录,像小爱同学一样下达指令 完全控制 macOS - Peekaboo:不只截图,而是完整的 GUI 自动化,see、click、type、scroll、hotkey、menu,模拟人类的一切操作 - imsg:命令行收发 iMessage/SMS - remindctl:操控 Apple Reminders 突破浏览器沙箱 他实现了 cookie 提取能力,让 Agent 能以用户身份直接调用任何网站的 API,绕过登录墙。 务实的技术选型 这些工具横跨多种语言: - Go:网络相关 CLI(gogcli、sonoscli、camsnap、bird)编译快、跨平台、无依赖 - Swift:macOS 深度集成(Peekaboo、imsg、Brabble)系统 API 原生支持 - TypeScript:Agent 端逻辑(Clawdbot 主体、MCP server)生态丰富、AI 友好 没有技术洁癖,哪个顺手用哪个。 终极目标,这一切都在做同一件事:打破软件厂商几十年来建立的互操作壁垒。 过去,每个 App 都是信息孤岛。你的邮件在 Gmail,日历在 Calendar,消息在 iMessage,音乐在 Sonos,摄像头在另一个 App。它们之间没有桥梁。 steipete 用几十个 CLI 工具,把这些孤岛全部打通,然后通过 统一暴露给 AI 来操作。 AI 成为编排者,说一句话,它调用 gogcli 查日历、用 Peekaboo 截图分析、通过 imsg 发消息、让 sonoscli 播放音乐。 所有这些,一气呵成。这才是 Clawdbot/Moltbot 最大价值,一整套让 AI 能操控一切的基础设施。
Kai
1个月前