时政
财经
科技
虚拟货币
其他
登录
#持续学习
关注
sitin
2周前
增长靠复利,不靠爆点。 复利来自:稳定产出×持续学习×关系沉淀。
#复利
#稳定产出
#持续学习
#关系沉淀
#长期主义
分享
评论 0
0
铁锤人
2周前
你有没有发现自己好像总是在重复犯错? 可能某天有人给你说了某个事情,你突然悟了。然后你就忘记了,就像在路边看广告牌一样。 若干个月后,你再次犯下同样的错误,然后你幡然醒悟,为什么我老是在重复犯错。 这种现象我在我生命之中如此频繁,我称之为“广告牌效应”, 生命中很多东西就像看广告牌,偶尔忘记了一下,某年某月突然又记起来,又忘记,人生如此循环,停止不前。 那如何解决这个问题呢? 看到了,立马去做是最好的 次之,就是谈论和写作 只要这么做,我们为某些理念的意识突然就提高。我们在下次犯错之前就会意识到即将犯下的错我。 准备打孩子的手就会放下 不顾及别人感受的话就会咽下 放弃的东西就会拾起 就算锻炼身体会让身体变好一样,行动,讨论,或者写作会让人的思维变得清晰 我之前一直以为我要确保百分之百正确才开始记录和谈论某个事情。 现在我改变想法了大部分事情都是 做着做着才会更加清晰 聊着聊着才会更加通透 写着写着才会更加明朗
#重复犯错
#广告牌效应
#行动的重要性
#知行合一
#持续学习
分享
评论 0
0
宝玉
2周前
这篇文章确实是指出了当前 LLM 存在的问题,但解决方案并不见得可行,另外这文章实在太长了点。 如果几句话总结一下,这篇文章主要就是想讲清楚:强化学习(RL)的教父、图灵奖得主 Richard Sutton 到底在担心什么?为什么我们现在的 Agent 这么“笨”?以及,我们该如何跨过这道鸿沟? Sutton 就是“AI 圣经”《苦涩的教训》(The Bitter Lesson) 的作者,他的理念就是: > 在人工智能领域,长远来看,依赖大规模计算的通用方法(如搜索和学习)最终将胜过依赖人类专家知识的复杂方法。 按理说,他应该对 GPT-5、Claude 这样的大模型拍案叫绝才对。 但他没有。相反,他直言不讳:今天所有的 LLM(大语言模型)都是一条死路。 为什么?Sutton 的原话:LLM 只是在模仿人会“说什么”,而不是在理解世界是“如何运转”的。 这个观点引发了很多讨论,AI 大神 Andrej Karpathy 前几天在播客中也对此有回应和深入探讨(参见: )。 > “我以前就说过,人类不使用强化学习。我认为人类的学习方式完全不同。强化学习比普通人想的要糟糕得多。强化学习很烂。只不过,我们以前有的其他算法比它还要烂得多罢了。” 两位大神都在揭露一个真相: 我们今天津津乐道的“推理器”(Reasoner),离一个真正的“智能体”(Agent)还差得远。而这个鸿沟,就叫“持续学习”。 1. 为什么 Sutton 说 LLM 是“死路”? Sutton 的批评主要集中在两点。 批评一:LLM 是“鹦鹉”,不是“物理学家” Sutton 说,LLM 根本不是真正的“世界模型”。 - 真正的世界模型:能预测“如果我做了A,世界会发生B”。比如,我松开手(动作A),杯子会掉地上摔碎(结果B)。这是对因果和物理规律的理解。 - LLM 在做什么:它在预测“如果我问了A,人类会回答B”。比如,我问“杯子掉了会怎样?”,它会回答“会摔碎”。 看到区别了吗?LLM 是在模仿一个“观察者”会如何描述这个世界,而不是作为“参与者”去理解这个世界的规律。它学的是“人会说什么”,而不是“世界会怎样”。 批评二:现在的强化学习“笨得可以” Sutton 的另一个批评是,我们现在主流的 RL 算法(比如 PPO)样本效率低到发指,而且它们只从“奖励”中学习,不从“观察”中学习。 这话说得有点绕,用原文里的一个例子,你一下就懂了: > 假设我们开发一个 AI Agent,帮用户打电话给 Xfinity(一家运营商)客服。 > > 第一次尝试:Agent 打过去,客服说:“我需要您的信用卡后四位来验证身份。” Agent 没有这个信息,任务失败,挂断。 > > 好了,问题来了: > > - 传统 RL Agent (PPO):它只知道这次尝试失败了(Reward = 0)。它不知道为什么失败。客服明明已经告诉它答案了(“需要信用卡后四位”),但这个信息是“观察”(Observation),不是“奖励”(Reward)。所以,这个笨蛋 Agent 只能下次再试,再失败……可能要试几百次,某一次瞎猫碰上死耗子,它碰巧提供了信用卡信息,成功了(Reward = 1),它这才“学会”了。 > > - 人类:第一次被告知需要信用卡信息,立刻就记住了。下次打电话前就会主动要这个信息。 这就是差距。人类能从环境的丰富反馈(观察)中学习,而现在的 RL 算法大多是“无模型”的,它们只关心“我这么做能不能拿分”,而无视了环境给出的所有其他宝贵信息。 2. “无限上下文”的陷阱:为什么 RAG (检索增强生成)不是学习? 很多人可能会反驳:“没关系,我们现在有超长上下文(Long Context)了!我把 Agent 第一次失败的经验(“客服要信用卡后四位”)直接放进下一次任务的提示词里不就行了?” 这就是目前大多数 Agent 的做法,包括 In-Context Learning(上下文学习)或者 RAG。 但这是对“学习”最大的误解。 把历史记录塞进上下文,不叫“学习”,这叫“开卷考试”。 原文中打个比方: > 让你计算 100 个案例中黑猫和白猫的比例。 > > - 真正的学习(压缩):你看完一遍,在脑子里总结出一个结论:“90只黑猫,10只白猫”。下次再问你,你直接给出答案。 > - 长上下文(RAG):你把 100 个案例的原始记录全堆在桌上。每次有人问你,你就重新把这 100 个案例再数一遍,然后得出结论。 这种方式极其低效,因为知识没有被提炼和压缩。你只是在进行一次又一次的重复检索,而不是把经验内化成了“规律”或“知识”。 AK 在前几天播客里面有一个引起很多人共鸣的结论:人类记性差,这不是 Bug,反而是 Feature(特性)。 正因为我们记不住所有原始细节,才被迫去提炼、总结、压缩知识,找出事物背后的规律。而这个“压缩”和“提炼”的过程,才是学习的本质。 3. “新员工”的困境:为什么 Agent 没法“上班”? 这就引出了一个核心问题:为什么现在的 Agent 解数学题比99%的人都强,但你让它去你公司干个具体工作,它却一塌糊涂? 你可以这么想:你找一个再聪明的天才,不培训就让他来你公司上班,他能干好吗? 大概率不能。因为他不知道: - 公司的代码规范 (Coding Style) - 公司的业务逻辑和黑话 - 团队的协作流程 - 哪些是不能碰的隐形红线 这些知识,绝大部分是非公开的、特定的、隐性的,你没法用一个简短的 prompt 教会它。 人类是怎么做的?在工作中持续学习。 这就带出了 Sutton 坚信的“大世界假设”(Big World Hypothesis):世界上的信息是无限的,模型不可能在预训练阶段就学完所有东西。你必须在与具体环境的交互中不断学习新知识。 而很多 LLM 派持有的是“小世界假设”:世界是复杂的,但规律是简洁的。只要模型足够大(比如 GPT-5),就能掌握绝大部分重要知识,不需要再学了。 显然,现实世界更符合“大世界”假设。 4. 怎样才算“真学习”?从“奖励”到“预测” 既然必须持续学习,而传统 RL 又那么笨(只认 Reward),那该怎么办? 原文作者结合实践,提出了一个非常有启发的改进思路,我把它称为“双 LoRA”策略。(LoRA 是一种高效微调技术,你可以理解为给大模型打上一个小小的“能力补丁”) 这个策略的核心是:在学习“怎么做对”(Policy)的同时,也要学习“世界会怎样”(World Model)。 回到那个 Xfinity 客服的例子: 1. LoRA 1 (策略补丁):它还是从 Reward 学习。任务失败,Reward = 0,它学不到东西。 2. LoRA 2 (世界模型补丁):它不关心 Reward,它的唯一任务是预测环境的下一个反馈。当客服说“我需要信用卡后四位”时,这个补丁会因为“预测失败”(它没料到客服会说这个)而产生一个 loss,然后它就会更新自己,学会“哦,原来打电话给 Xfinity,对方会要信用卡信息”。 看,这就是一种时序差分学习(TD-Learning)。Agent 不再是只看重“得分”的偏科生,还成了能“理解”环境反馈的好学生。 效果是天差地别的: - 传统 RL:要试几百次才能学会。 - 双 LoRA:只要 1、2 个 step 就能学会。 这,才开始有点“持续学习”的样子了。 5. 另一个“致命”瓶颈:AI 为什么反应这么慢? 解决了学习效率,还有一个大问题:现在的 Agent 交互起来为什么那么“卡”? 明明模型的输入输出速度(token/s)都比人类快得多,为什么我们总觉得它反应迟钝? 作者认为根源在于一个僵化的“ReAct 循环”:观察 → 思考 → 行动。 现在的 Agent 都是这个死循环: 1. 观察(听):必须等你把话说完,看到句号了,它才开始下一步。 2. 思考:开始处理你的话,进行推理。 3. 行动(说):把思考完的结果一口气说出来。 但人类根本不是这样工作的! 人类是“事件驱动”的,我们的“听、想、说”是交错进行的 (interleaved): - 边听边想:你刚说开头,我就开始思考和预测你后面要说什么了。等你把话说完,我可能已经想好答案了。 - 边想边说:如果我没想好,我会先说点“嗯……”、“让我想想啊……”这样的“填充词”,在说这些话的同时,我的大脑在高速进行下一步思考。 人类充分利用了所有“间隙”在思考,所以交互体验才如此流畅。 未来的 Agent 必须抛弃僵化的 ReAct 循环,转向这种“边听边想边说”的事件驱动架构。这对于语音助手、机器人、甚至 AI 帮你打游戏都至关重要。 对于这点我觉得虽然“ReAct 循环”,但是实现起来是最简单直接的,作者所说的那种思路看起来很好,但真要实施当前技术未必做的到。 当然很多事情还是得要加上时间维度,有时候并不能用现在的眼光来看这些问题。 至少当前 AI Agent 存在的问题是客观存在的: - 一个真正的 Agent,其核心价值不在于它“知道多少”,而在于它“能学多快”。 - Agent 必须要有持续学习的能力,能从丰富的“观察”中学习世界模型 - “ReAct 循环”很慢,Agent 也应该想人一样能具有“边听边想边说”的实时架构
#LLM死路
#持续学习
#世界模型
#强化学习局限
#ReAct循环
分享
评论 0
0
Y11
1个月前
在未来十年,想要快速成长、抓住机遇,最核心的能力或许不是你已有的知识储备,而是持续学习的能力。 就像在快速变化的森林里穿行,跑得快不如看得清、学得快,能不断适应新环境的人,才能走得更远。 首先,得找到自己的“学习密码”——也就是适合自己的学习方式。 有人喜欢边听边学,开车时听书、看纪录片能记住更多;有人看文字更专注,书本和文章能让他们理清逻辑;还有人动手做过一遍,才会真正理解,比如学编程时写几行代码,比单纯看教程更有效。 就像不同的食材要不同的烹饪方法,学习也要找到最适合自己的“火候”,这样才能把知识“消化”得更好。 其次,要学会“借工具”。 现在的AI就像一个贴心的学习助手,它能把复杂的知识变成你喜欢的形式。 比如一本厚厚的专业书,你不喜欢看文字,AI可以帮你转换成音频,让你在通勤时“听”懂;如果是历史知识,它能做成互动问答,像玩游戏一样帮你记住重要的时间和事件;如果是技能类知识,比如怎么用新软件,AI还能生成步骤清晰的操作指南,连截图和动画都有。善用这些工具,就像给学习装上“加速器”,让知识以更轻松的方式进入你的大脑。 但光“学”还不够,关键是“用”。就像学游泳,光看教程、在岸上比划,永远也游不起来。学了新东西,要立刻找机会用起来:学了沟通技巧,就试着在团队会议上更清晰地表达;学了时间管理方法,就马上调整自己的日程表。哪怕只是在小事上用一次,比如用新学的方法整理办公桌,也能帮你加深理解,发现哪里没掌握好,再回去针对性地学。 最后,学习是个“循环”,不是一次性的事。今天学会的东西,过一周可能就忘了大半,这很正常。所以要不断重复:看完一个知识点,过几天回顾一遍;用了新方法遇到问题,再查资料解决;遇到新挑战时,想想之前学的哪些知识能用上。就像种一棵树,需要浇水、施肥、修剪,学习也是这样,不断重复、不断实践,才能让知识真正长在自己身上,成为能力。 说到底,学习能力不是天生的,而是练出来的。找到自己的节奏,用好身边的工具,大胆去尝试、去应用,然后在这个循环里不断迭代。当你能比别人学得更快、用得更活,机会自然会向你走来。未来十年,谁能把学习变成习惯,谁就能在变化中始终站在前面。
#持续学习
#AI辅助学习
#知识应用
#学习方法
#适应变化
分享
评论 0
0
Mr Panda
1个月前
其实我是比较理解一些使用vibe coding 的朋友的, 虽然确实做了一个产品,而且能被人使用的产品。 这个应该值得鼓励赞赏。 不过你一定不要小看专业的工程师的重要性。 我举个例子, 一些人可能一个数据表多了百十来条记录, 很多靠vibe coding 的人都不懂为什么要加索引,更不一定懂什么叫全表扫描了 ,突然卡到系统崩溃都不知道为什么 还是要保持谦逊,持续学习。 vibe coding 帮我助完成了从0到1, 但我们还有人1-n等着我们呢。
#Vibe Coding
#工程师重要性
#索引
#全表扫描
#持续学习
分享
评论 0
0
sitin
2个月前
有输出有内容才有流量现金流才有正向收益才能持续投资学习,跑通整个正向循环,学习的终极意义,是转化为价值,哪怕是赚到第一块钱,都是鼓励
#内容输出
#流量变现
#正向收益
#持续学习
#价值转化
分享
评论 0
0
宝玉
3个月前
只要现在 AI 还是这样模拟人类写代码的方式开发软件,然后上下文窗口长度不能一次塞入整个项目代码,那么别说 10 年,多少年 AI 都没法替代架构师。 但要是 AI 采用的是全新的适合 AI 开发软件的开发模式,或者代码库整个都能塞入模型性能和成本都可控,那么还要架构师干嘛? 不过也不必焦虑,这样的变化不是一天两天突然发生的,如果你密切关注,并且保持学习跟进,那么真发生了也能很快切换过去,成为第一批掌握使用 AI 快速架构快速构建的人。 搞软件开发这行的,本身就得持续学习,与时俱进,学习架构设计是绕不过去的,一方面现在 AI 辅助编程时很实用,另一方面这些架构设计的能力也可以应用到其他领域。比如说将来 AI Agent 开发项目能力很强,但还是需要有人去管理这些 AI Agent 更好的协作,那么就还离不开架构设计去协调这些 Agent。
#AI浪潮:重塑就业,风险暗涌?· 122 条信息
#AI
#软件开发
#架构师
#AI替代
#持续学习
分享
评论 0
0
howie.serious
3个月前
观点 1:gpt-5 烂透了!取消订阅! 观点 2:讨厌 gpt-5,80% 概率是 ai 技能问题。 我目前的感受:gpt-5 不是 o3,也不是 gpt-4.5,需要更多实践和探索。 以我自己的一个文本处理案例来说,本来跑出来的结果“烂透了”,然后优化了一下 prompt,结果截然不同,差异巨大。 我觉得需要投入实实在在的精力去研究它,去实践。llm 和人挺像的,不同的模型有不同模型的“脾性”,我们所熟悉的 prompt 方式可能也需要根据 agentic llm 新范式来升级。 如果 ai 这东西不需要人持续学习,人人自动就能驾驭如此强大的工具,这可能吗? 一个月后,甚至更长时间,大家对 gpt-5 系列模型,才可能收敛观点,达成共识。
#GPT-5
#AI技能
#Prompt优化
#持续学习
#模型脾性
分享
评论 0
0
Morris
3个月前
一个高主观能动性的人,有那些特质?第一,就是从小就有反常的兴趣爱好,比如说别人都爱打篮球,在泡妞,然后,你就喜欢研究昆虫,那小朋友。那些其他小朋友通常都是最容易随大流的,如果你从小就这么有主见,长大肯定也很有想法。第二,如果你每次跟这个人聊完天,你都会被他的热情能量感染到,那这个人的执行力肯定也差不到哪里去。第三,是你琢摸不透他们的心思,比如说,喜欢研究战争史的销售,喜欢读尼采的美妆博主,或者说喜欢读诗的这个拳击手,我就想到了李小龙,他一方面的打打杀杀感觉很暴力,但是反手给你来一句什么Be-like-water,my-friend(要像水一样,适应环境、柔中带刚、无形无相。),这个组合就非常的性感,第四,或者说离开他们原生地的人,距离越远越好。比如说从什么云南冲到北京去创业,或者是拖家带口从中国搬到美国。一个没有主见,没有执行力的人,就不会愿意在一个新的地方从零开始。第五,老是给你发一些小众内容的人,因为大部分人只会关注点赞高、评论高的东西,那只有高能动性的人,才会关注内容质量本身,而不是靠着什么别人的想法,别人的推荐来决定一个东西的好坏。第六,老在你面前挑你的刺,但是在背后,经常夸你。第七,主动放弃了某一个高大上的身份,或者说某一个高大上的职位,去追求自己目标的人。第八,不会因为所有人都默认某件东西,就不去验证它。第九,学东西很快,而且不停的学。第十,在回答问题之前,会先挑战问题问的合不合理。如同马斯克,他的工程师都在纠结一个功能怎么做,老马一上来说我们为什么要这个功能,能不能不做?所有工程师都傻了,说从来没有想过。无论这个人智商、脑力怎么样,长相怎么样,资源怎么样,只要他在主观能动性这一栏,点数是拉满的,结局基本都差不到哪里去。平时大家看人可能说,有没有钱,性格怎么样,怎么样,我觉得可以把主观能动性这个维度加进去。
#主观能动性
#反常兴趣
#挑战权威
#持续学习
#热情能量
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞