LIN WEI
2个月前
我用了十多年的博客服务商 前几天突然停止服务,连个电话都不打一个,只有垃圾邮箱里躺着一封提前几天发的通知,停服后连延长备份的时间都不给你,幸好我有备份,重新评估了一下现存各个 php 虚拟主机提供商,迁移到 ,文章和评论都恢复了,但访问量和 likes 清空了,因为访问量统计这个 wordpress 插件用的是自己新建的 mysql 数据表,属于额外数据,而负责备份数据的插件只备份了标准 wordpress 数据。无所谓了,计数器不算啥重要数据,主要是觉得 cn 的做法有点恶心。 我第三次博客搬迁了,最早在网易虚拟主机服务,后来去的 51 啥来着,又去道 又来到 cn 这个 cn 是我用的最长时间的服务了,再次证明,没啥可以一直服务的东西。 有人问我为什么不用静态页面,主要是 wordpress 加各种插件只需要一个服务,但静态页面需要 github pages,github issue,还有独立计数器 一共三个服务,任意一个出幺蛾子都相当折腾,比如之前一个用 issue 做评论的 hugo 插件,免费几年突然开始收费,不付钱就给你插广告,相当恶心,还有 issue 这种服务你没法掌控数据,没法方便的导入导出别人的评论,没法让我从其他系统迁入数据,出问题也不方便导出数据,评论是很重要的数据,哪天它停止服务或者政策变一下,比如类似 twitter 那样禁用外部 api 就完全只能哭了。 最关键是我熟悉 wordpress,熟悉它的数据库表结构,各种插件,主题,不满足需求的地方自己也能稍微改一下,上限高一些,在一个除了博客我还有一个 wiki,也是假设在同一台虚拟主机上的,没法静态页面。 又有人问为什么不用 vps,第一个就是贵,虚拟主机要比 vps 便宜很多,长期使用成本低,另外 提供的后台功能很强,备份,安装应用,https 证书自动化,phpmyadmin,补丁和升级,web 文件管理,统计,ftp 等等,自己完全弄挺烦的,最后是 vps 权限太大,我经常不小心把它弄挂。虚拟主机权限很局限,十多年弄不挂。
宝玉
2个月前
斯坦福大学的一篇论文《WHERE LLM AGENTS FAIL AND HOW THEY CAN LEARN FROM FAILURES》在尝试找到 AI 智能体为什么总是失败的答案。 他们观察了超过 500 次智能体在三个不同基准测试中的失败案例,其实很多人以前也提出过类似的观点,就是错误会累积: 早期的微小错误并不仅仅是小麻烦,它们会像多米诺骨牌一样层层传递,最终导致整个系统彻底崩溃。 想象一下,你让一个 AI 助手帮你完成一个复杂任务,比如“预订下周二去上海的航班和酒店,并把确认信息发到我日历上”。 这任务听起来不难,但它需要 AI 做好几件事: 1. 规划(Planning):先订机票,再订酒店,最后发日历。 2. 使用工具(Tool-use):调用航旅 App 的 API、调用日历 API。 3. 记忆(Memory):记住订好的航班号,以便预订机场附近的酒店。 4. 反思(Reflection):检查一下,“酒店订好了吗?机票确认了吗?”。 理论上很完美。但现实中,这个 AI 助手可能在第一步“订机票”时,因为网络卡了一下,工具返回了一个错误代码。然后,灾难就开始了。 AI 助手可能没看懂这个错误,它“反思”了一下,错误地得出一个结论:“哦,机票订好了!”。然后它信心满满地去执行第二步“订酒店”。等它执行到最后一步,你打开日历一看,发现航班信息是空的,酒店也没订上,任务彻底失败。 这就是这篇论文的核心要点:“连锁崩溃”(Cascading Failures)。 就像多米诺骨牌,一个小小的、发生在早期的错误,会像病毒一样在后续的每一步中传播开来。AI 越复杂,这种连锁崩溃就越严重。目前的问题是,我们缺乏一个好办法,去系统性地理解 AI 到底是在哪一步“想歪了”。我们只看到最后的失败,却抓不住那个引发一切的“万恶之源”。 要想治病,先得“确诊”:给 AI 失败建个分类表 这篇论文的作者们认为,要解决问题,我们首先得能准确描述问题。 于是,他们做的第一件事,就是创建了一个“AI 智能体失败分类表”,名叫 AgentErrorTaxonomy(智能体错误分类法)。 这个分类表非常关键,它不再笼统地说“AI 失败了”,而是把失败的原因归纳到 AI 的核心模块里: 1. 记忆模块(Memory):AI 记错了或“脑补”了信息。比如,它以为自己已经把商品A加入购物车了,但实际上没有。 2. 反思模块(Reflection):AI 错误地评估了当前进展。比如,任务明明卡住了,它却以为“进展顺利,下一步!”。 3. 规划模块(Planning):AI 制订了不合逻辑或无法执行的计划。比如,它计划“先穿墙过去,再开门”。 4. 行动模块(Action):AI 在执行层面出了错。比如,它调用工具时,把参数名字写错了。 5. 系统模块(System):非 AI 自身原因,比如外部工具崩溃了,或者网络超时了。 有了这个分类表,AI 的失败就不再是一个玄学问题,而变成了一个可以被诊断、被归类的工程问题。 有了“诊断标准”,下一步就是需要“临床病例”——一个“AI 失败案例集”。 作者们接着构建了 AgentErrorBench(智能体错误基准)。他们从 ALFWorld(模拟家居环境)、GAIA(问答)、WebShop(模拟网购)等多个知名 AI 智能体测试平台上,收集了足足几百个 AI 真实失败的“黑历史”轨迹。 然后,他们雇佣了专家,用上面那个“失败分类表”去逐一标注: - “看,这个案例,AI 在第 3 步的‘规划’上出了错,它‘忽视了约束条件’。” - “哦,这个案例更典型,它在第 5 步的‘记忆’上‘过度简化’了信息,导致后面全错。” 这个“AI 失败案例集”是业界第一个这么干的。它就像一本“AI 疑难杂症病例手册”,让 AI 开发者终于有了一套靶子,可以用来训练和测试他们的“AI 医生”。 隆重登场:“AI 调试器” AgentDebug 有了“诊断标准”和“病例手册”,这篇论文的“重头戏”来了:一个能自动给 AI 纠错的框架——AgentDebug。 AgentDebug 的核心思想,不是修复 AI 的每一个小毛病,而是去找到那个引发“连锁崩溃”的“0号病人”——也就是“根源错误”(Root-Cause Failures)。 它的工作流程分为三步: 第 1 步:全面体检(Fine-grained Analysis) AgentDebug 会先拿到 AI 失败的完整“行动日志”。然后,它用“失败分类表”作为尺子,给日志里的每一步、每一个模块(记忆、规划、反思……)都打上标签。 第 2 步:定位根源(Critical Error Detection) 这是最关键的一步。AgentDebug 会从头到尾分析这个体检报告,寻找那个最早的、最关键的错误。 怎么才算“关键”?AgentDebug 的判断标准近乎一种“反事实推演”:如果我在这一步修正了你这个错误,整个任务是不是就能转危为安了? - 如果答案是“是”,那恭喜,你就是那个“根源错误”。 - 如果你只是个被上一步带歪的“受害者”,修复你也没用,那就跳过。 这种方式效率极高,因为它直奔主题,而不是在那些无关紧要的“表面错误”上浪费时间。 第 3 步:精准“喂药”(Iterative Debugging) 一旦找到根源错误,AgentDebug 不会粗暴地让 AI “你重来一次”。 相反,它会给出非常具体、可执行的反馈。比如在一个找东西的任务中,它会说: “停。你在第4步的‘规划’模块犯了‘计划低效’的错误。你的计划是只搜寻柜子,但你忽略了台面/桌子这些同样可能的地方。现在,请你从第4步重新开始,修正你的计划,把台面也搜一下。” AI 助手收到这个反馈,就会“回滚”到第 4 步,带着新建议重新执行,最终成功完成了任务。 作者们的实验证明,AgentDebug 效果拔群。在“定位错误”这个能力上,AgentDebug 找出“根源错误”的准确率,比最强的竞品高出了 24%。 在“修复任务”这个能力上,它给 AI 带来的任务成功率提升更是高达 26%。在一款模型上,它甚至把任务成功率从 21% 直接拉升到了 55%。 这篇论文最后总结的第一句话是: > This work focuses on analyzing and improving the robustness of LLM-based agents. 通往强大 AI 的路径,不仅在于让它“更聪明”,更在于让它“更皮实”(Robust)。 一个能认识到自己犯错、能分析错误根源、并能从中吸取教训的 AI,远比一个只会“一条路走到黑”的天才 AI 要可靠得多。 当然这篇论文中提到的方案能否在 AI Agent 的实践中落地,还有待观察,但这些研究还是能给人一些启发。 论文地址:
dontbesilent
2个月前
让 AI 用哲学去研究我的文字,只发了 4 条推文,就把我的文风拆出来了 大家经常说 AI 模仿不了文风,就是差这个 ━━━━━━━━━━━━━━━━━━━━━━ dontbesilent 语言风格解构报告 ## 🔍 一、结构特征 **词汇画像**: - 直白口语化 | 动作指令型 | 二元对立强化 - 高频词:「换」「看」「干」「钱」「对标」 - 专业术语极少,日常动词占主导("干""换""看懂") - 具象词>抽象词(用"数钱"代替"盈利") **句法特征**: - 平均句长:8-12字(极短促) - 句式:祈使句+判断句为主("那就换""就是没看懂") - 大量使用顿号、逗号制造节奏感 - 零从句,拒绝修饰,纯主谓结构 **修辞手法**: - 极简二分法(能/不能、看懂/看不懂) - 反复强调("换对标"出现7次) - 口语化隐喻("把同行当成AI测试") --- ## 🧩 二、深层逻辑 **核心二元对立**: - 行动 vs 思考("能干就执行" vs "讨论业务") - 结果 vs 过程("数钱" vs "成长经历") - 模仿 vs 创新(强调复制而非原创) **隐含预设**: 1. 商业成功=可复制的模式,无关个人特质 2. 认知障碍的唯一解法是"换"而非"学" 3. 实践优先级>理论学习("走流程>看书") **思维模式**: - 决策树式二叉逻辑(if A then B, else C) - 排除法而非建构法 - 极端实用主义(拒绝中间态) --- ## 💬 三、话语权力 **说话者姿态**:9/10(强权威) - 使用大量断言句,零商量余地 - 不提供论证,直接给结论 - 命令式语气("就回去上班") **情感基调**: - 客观度:3/10(高度主观但伪装客观) - 情感强度:8/10(通过简短句式传递急迫感) - 态度:冷峻、不容置疑 **意识形态**: - 反智主义倾向(贬低"看书""学课") - 极端结果导向("利润是唯一标准") - 社会达尔文主义("不能干就上班"暗示失败者淘汰) --- ## 🎭 四、语境规则 **交流场景**: - 创业社群/商业培训场景 - 非正式但权威性强(导师对学员) - 私域流量运营圈层 **功能定位**: - 主要言语行为:**指令+去魅化** - 次要功能:打破认知惯性、制造紧迫感 **文化标记**: - 互联网创业黑话("私域""对标""IP") - 反传统商业教育话语 - Z世代速成文化(拒绝积累,强调捷径) --- ## 🎯 五、风格基因提取 **该文本的"风格DNA"**: 这是一种**极简主义行动指令体**,通过: 1. **超短句+祈使句**制造不容置疑的权威感 2. **二元对立+排除法**消解思考空间,强制决策 3. **口语化+去修饰**营造"内行人直球输出"的真实感 4. **反复锤击核心动词**(换/干/看)形成洗脑式记忆点 5. **拒绝抽象概念**,一切用动作和结果说话 核心特征:**"教官式冷幽默" + "算法式决策树" + "去魅化商业鸡汤"**