向阳乔木
5小时前
前几天深圳参加极客公园和阿里的活动,顺便去香港办了几张银行卡,之前只有汇丰one,好像现在不支持 X 绑定提现了。 简单记录过程和注意事项: 1. 住南山区,离深圳湾口岸很近,打车20多分钟到,准备签注过的港澳通行证 + 身份证,刷卡和按指纹通过。 2. 进去左转找到B3X巴士站台,站台有二维码,微信或支付宝扫码进入“搭车碼”小程序,地区切换至“香港”,开通【港铁乘车码】付款,几十块就能到市中心。 3. B3X双层大巴,坐车到屯門市中心,那边有中银香港、招商永隆等实体银行,不过都需要提前预约。 尤其是中银香港,最近7天所有分行都约满了,有人6点多就过去排队,每天只有很少的放号,很难搞。 4. 中银香港对面有个麦当劳,可以点吃的,然后开始办理线上银行。 多数人推荐众安,次选天星银行等,基本正常填写资料,上传入境小票PDF,一般1-3天内审核通过。 (我的天星是秒开,众安是2天后) 5. 入境小票,一般是进入香港境内,微信打开移民局12367 ,人脸识别->中国公民服务->出入境记录查询,下载PDF存手机里。(刚到可能需要等,有可能延迟1-2小时有记录) 注意,去香港前要在微信或支付宝,搜索“境外上网”,买流量包,避免上不了网。 入境会自动激活,如果不行,可以试着打开移动网络,关闭自动切换,手动指定香港的手机运营商。 另外,抽空可以在711买个香港手机卡,方便绑定香港微信支付,没找到大家说的clubsim,买了一年的csl,好像不到一百块。
一个Newsletter读到的文章。 作者在夸CC,而且告诉大家不要误以为只这是给程序员用的工具,其实有很多场景,建议人人都快用起来。 翻译下: Claude Code:AI 能独立干活了 打开 Claude Code,我给了它一个指令:「帮我想个能月入 1000 美元的在线生意,你负责从想法到实现的所有工作。 我什么都不用做,只需要运行你给我的程序就行。记住,我不懂编程,所以一切都要能直接用。」 AI 问了我三个选择题,然后决定:卖一套 500 个专业提示词,定价 39 美元。 接下来发生的事有点魔幻。 它独自工作了 1 小时 14 分钟,创建了几百个代码文件和提示词。 然后给了我一个文件,运行后直接部署了一个能用的网站——甚至包括那些看起来很可疑的假评论。 你可以看看这个网站,我把支付链接删了,但它确实能收钱。 说实话,如果我放下良心真的去卖这些提示词包,月入 1000 美元应该不是问题。 这就是 Claude Code,最近一个月突然变强的新一代 AI 编程工具之一。 为什么突然变强了? 不是因为某个技术突破,而是两个进步的组合: 第一,AI 能自己干更多活了。 最新的 AI 可以自主工作更长时间,还能自己改错,特别是在编程任务上。 第二,AI 有了工具箱。 它们被赋予了一套「Agent工具」,可以用新方法解决问题。 这两个因素叠加,让最近几个月的 AI 工具能力大跃进。 METR 的追踪数据显示,AI 能以 50% 可靠性完成的任务长度(按人类专业人士需要的时间衡量)呈指数增长,最近几个月尤其明显。 可惜,这些工具是给程序员用的。 真的是专门给程序员用的。 它们假设你懂 Python 命令和编程最佳实践,界面看起来像 1980 年代的计算机实验室。 这其实挺遗憾的。 因为这些系统对各类知识工作者都很有用。 通过看看它们能做什么(自己试试),你能学到很多关于 AI 未来的东西。 回到那个创业公司的例子。 虽然很厉害,但这只是 Claude Code 能力的一小部分。 我让它从不同用户角度测试这个网站,给我一份报告。 它调用了工具之一:连接我电脑上的浏览器。Claude 控制了浏览器,像人一样浏览网站。 第一次它给了个挺乐观的报告,但因为我知道 AI 倾向于讨好人,我又让它给个更批判性的版本。 第二份报告确实更好地指出了潜在问题(还发现了网站上那些可疑的假评论)。 下一步?我可以轻松让它实现这些建议,几乎不需要我的输入就能继续推进。 魔法技巧 Claude Code 之所以这么强,是因为它用了很多技巧来克服大语言模型的问题。 技巧一:压缩记忆 有个有趣的事发生了:AI 做用户研究时,它的上下文窗口满了。 你可能知道,AI 一次只能「记住」这么多信息。 这个上下文窗口虽然按人类标准很长(15 万字以上),但会很快被填满。 因为它包含你的整个对话、AI 读的每个文档、看的每张图片,还有引导 AI 的初始系统提示。 AI 没有真正的长期记忆。 一旦上下文窗口满了,AI 就记不住别的了。 如果只是闲聊,这不是问题。 和 ChatGPT 的长对话会有滚动上下文窗口,AI 不断忘记最早的对话部分,但通常能根据最近的讨论即兴应对。 但如果你在做真正的工作,让 AI 在读新代码时忘记一些旧代码就成了大问题。 Claude Code 用不同方式处理这个问题。 当它用完上下文时,会停下来「压缩」到目前为止的对话,准确记录它停在哪里。 然后清空上下文窗口,新版本的 Claude Code 读取笔记并回顾进度。 就像电影《记忆碎片》里的失忆主角每次醒来都看自己的纹身。 这些笔记给 Claude 继续前进所需的一切。 这就是为什么 Claude 可以连续运行几个小时,它会仔细记录自己在做什么,并产生中间工作成果,比如软件片段和报告,可以随时参考。 技巧二:技能Skill系统 你知道的,用户必须提示 AI 做事。 这些提示就像指令。 随着 AI 变聪明,它们在执行复杂提示方面好多了,甚至是上百页的长提示。 但这些长提示会占用很多上下文窗口,而且需要在正确的时间给 AI 正确的提示。 这意味着你作为人类必须不断提示 AI,或者设计一个复杂的自动化系统不断给 AI 喂提示。 技能(Skills)解决了这个问题。 它们是 AI 自己决定何时使用的指令,不仅包含提示,还包含完成任务所需的工具集。 需要知道如何建一个好网站? 它加载网站创建技能,解释如何建网站以及使用什么工具。 需要建 Excel 表格?它加载 Excel 技能及其指令和工具。 再打个电影比方,就像《黑客帝国》里尼奥把武术指令上传到脑子里获得新技能:「我会功夫了。」 技能可以让 AI 根据需要交换知识来覆盖整个流程。 比如 Jesse Vincent 发布了一套有趣的免费技能列表,让 Claude Code 处理完整的软件开发流程,根据需要获取技能,从头脑风暴和规划开始,一直到测试代码。 技能创建在技术上很容易,用普通语言完成,AI 实际上可以帮你创建它们。 技巧三:子代理(Sub agent) 除了技能,Claude Code 还有其他技巧来管理有限的上下文窗口和解决难题。 它可以创建子代理——有效地启动其他专门的 AI 来解决特定问题。 这在很多方面都有用。 因为 Opus 是一个大型、昂贵的模型,它可以把简单任务交给更便宜、更快的模型。 它还允许 Claude 同时运行许多不同的流程,让它像团队而不是个人一样工作。 这些模型可以非常专业,有自己的上下文窗口。 比如,我为研究和图像创建建立了单独的子代理。 主 AI 模型在需要时「雇用」这些代理来做专门工作。 你甚至不需要创建自己的工具。 任何人都可以分享技能或子代理,想让 AI 代理使用他们产品的公司可以使用一种叫模型上下文协议(MCP)的方法给任何 AI 指令和访问权限。 有出版商的 MCP 让 AI 访问科学论文做研究,有支付公司的 MCP 让 AI 分析财务数据,有软件提供商的 MCP 让 AI 使用特定软件产品,等等。 结果是一个非常灵活的系统,像 Claude Opus 4.5 这样聪明的通才 AI 可以即时应用专业技能,根据需要使用工具,并跟踪自己在做什么。 Claude Code 特别强大,因为它在你的电脑上工作,处理你的文件。 现在你有了一个几乎可以做任何有权访问你机器的人能做的事的 AI。 它可以读取你的所有文件并创建新文件(PowerPoint 和 Word 归根结底只是代码,Claude 知道如何写代码),使用你的浏览器访问网络,为你编写和执行程序,等等。 当然,AI 不是完美的。 给 AI 访问你的浏览器和电脑会带来各种新的风险和危险。AI 可能会删除不该删的文件,执行有意外后果的代码,或访问浏览器中的敏感数据。 尽管有这些警告,我还是要给你一个非常快速的 Claude Code 介绍。 但要做备份,使用专用文件夹,不要让它访问你承受不起丢失的任何东西。 业余爱好者的 Claude Code 指南 虽然我在之前的截图中一直使用 Claude Code 的命令行界面,但有一个更简单的方法(从昨天开始!)访问 Claude Code。 你可以用 Claude Desktop 做到这一点,可以从官网下载安装(长期使用至少需要每月 20 美元的订阅)。 现在桌面版本的功能比命令行界面少一些,但对业余爱好者来说容易多了。 给 AI 访问一个文件夹(记住 Claude 可以对该文件夹中的文件做任何事,所以如果是敏感的要小心,做个备份)。 然后你就可以开始和 AI 工作了:让它研究和写报告,让它访问你的信用卡记录,这样它可以把它们放入电子表格并告诉你任何异常,让它做数据可视化,或者你喜欢的任何其他事情。 我提到的最强大的选项是通过以「/」开头的斜杠命令访问的。 输入 /agents 让你设置子代理,/skills 让你创建或下载技能,等等(桌面版本的斜杠命令有限,但完整集合即将推出)。 人们使用 Claude Code 的方式有很多,所以你可以试验找出适合你的方法。 但我也建议用它来实际编码,即使你不是程序员。 比如,我写这篇文章时,偶尔会去一个 Claude Code 窗口,让 AI 为我做一个游戏玩: 一个历史模拟,文明兴衰,发展自己的语言、文化和经济。 每隔几分钟,我会给 AI 另一个看似不可能的请求: 确保世界有自己的板块构造和天气; 跟踪统治者的家谱; 内置一个 AI 戏剧性地总结事件,等等。 每次更改后,AI 都会玩测试结果并产生游戏的新版本。 与以前的氛围编码体验不同,AI 从未卡住或绕圈子,一切都很顺利。 看看下面的视频。我确信它充满了有能力的程序员会发现的问题,但你可以在这里下载结果(AI 也处理了那部分)。 这意味着什么? 如果你是程序员,你应该已经在探索这些工具了。 如果你和编程相关(处理数据的学者、想用代码试验的设计师、任何想尝试构建自己想象的东西的人),这是你试验的时刻。 但有一个观点:有了正确的工具,今天的 AI 能够做真正的、持续的、实际重要的工作。 这反过来开始改变我们处理任务的方式。 不出所料,这从编程开始。 AI 界最著名的程序员之一 Andrej Karpathy 最近发帖说:「作为程序员,我从未感到如此落后。 这个职业正在被戏剧性地重构,因为程序员贡献的部分越来越稀疏和分散。 我有一种感觉,如果我能正确地把过去一年左右变得可用的东西串在一起,我可以强大 10 倍,而未能获得这种提升感觉明显像是技能问题。」 不要被当前 Claude Code 的笨拙或它对编程的专业化所迷惑。 让 AI 为其他知识任务工作的新工具在不久的将来会出现,它们将带来的变化也会随之而来。
谷歌发表了一篇论文 "Nested Learning: The Illusion of Deep Learning Architecture"。 AI解读觉很有趣,跟人脑学习和记忆机制做了对比。 很新,很有趣的研究方向啊,难道就是HOPE新的构架? 摘录部分如下: --- 为什么大语言模型在预训练结束后,就像得了"顺行性遗忘症"? 它能记住训练时见过的知识,也能处理当前上下文的信息,但就是无法把新学到的东西真正"记住"。 除非你把新知识塞进它的上下文窗口里。 问题的根源,可能不在于我们的模型不够大,而在于我们对深度学习的理解本身就是一种"错觉"。 一、人脑给我们的启示 先从人脑说起。 人脑有个很神奇的特点:它能持续学习,而且不会"灾难性遗忘"。 这背后有两个关键机制: 1. 多时间尺度更新 人脑不同区域的神经元,更新频率是不一样的: ① Gamma波(30-150 Hz):处理感官信息,更新最快 ② Beta波(13-30 Hz):负责主动思考 ③ Delta和Theta波(0.5-8 Hz):负责记忆巩固和学习,更新最慢 人脑是一个多频率协同工作的系统。 快的部分负责快速适应,慢的部分负责长期记忆。 2. 统一且可复用的结构 更神奇的是,人脑的结构是高度统一的。 有个极端的例子:半脑切除术——切掉一半大脑的孩子,长大后认知功能几乎正常。 说明大脑的各个部分本质上是可以互相替代的,它们用的是同一套"硬件"。 记忆也不是存在某个特定区域,而是分布式存储的。 对比现在的深度学习模型: • Transformer的注意力层和MLP层看起来完全不同 • 所有参数在测试时都是固定的 • 预训练时所有层的更新频率都一样 这和人脑的设计理念完全相反。 二、Nested Learning:一个新的视角 谷歌提出了一个叫 Nested Learning(嵌套学习)的新框架。 在持续学习任务上: ① 类增量学习:Hope在CLINC、Banking、DBpedia上都是最好的 ② 新语言学习:Hope-3(三层记忆)几乎没有灾难性遗忘 ③ 长上下文理解:在10M token长度上仍然有效 Nested Learning的几个启示: 1. 不要再区分"训练"和"测试" 对于一个神经学习模块来说,没有训练时间和测试时间的区别。 它只有两种状态:一接收信息输入,二作为孤立系统运行。 2. 参数比我们想的多 模型的参数不只是那些在预训练中优化的权重。动量项、隐状态、记忆状态都是参数,它们存储着重要的知识。 3. 优化器应该是架构特定的 因为架构生成梯度,优化器压缩梯度,它们是一个互联系统。 不同架构生成的梯度模式不同,所以需要不同的优化器。 4. 灾难性遗忘是压缩的必然结果 遗忘不是bug,是feature。 当模型容量有限时,必须遗忘一些东西才能学习新东西。 但通过多频率设计,我们可以让知识在不同层级间循环,减少彻底遗忘的可能。 写在最后 回到开头的问题:为什么大语言模型像得了"顺行性遗忘症"? 因为我们一直在用错误的方式堆叠层数。 我们以为堆叠更多的Transformer层就能解决问题。 但其实我们需要的是堆叠不同频率的学习过程。 深度学习的"深度",不应该只是网络层数的深度,更应该是计算和学习的层级深度。 Nested Learning 不是终点,而是一个路线图。 未来的进步,不是来自更深的静态网络,而是来自更好地利用这个新的设计维度:层级和频率。 就像爱因斯坦说的: "我们不能用制造问题时的思维方式来解决问题。" 也许,是时候用新的视角重新思考深度学习了。