时政
财经
科技
虚拟货币
其他
登录
Susan STEM
关注
统计数据
67
文章
0
粉丝
0
获赞
168
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
Susan STEM
1个月前
这几年的房价崩塌让我彻底看清了一些事情。尤其是几位朋友在国内成为“失信人”。因为他们都比我能干,都比我聪明,我也没看出他们有任何一步做错了。从那之后,我开始自觉地成为一个“主权个人”,不想再依赖系统给定的稳定叙事,而是主动构建自己的生存结构与认知路径。 我们这一代为人父母者,最应该推翻的两大过时教育观念是:一、科幻小说不是现实;二、玩游戏的孩子注定玩物丧志。 这两个观念的毒性,在今天这个技术爆炸的年代尤其致命。 很多人说我语言晦涩,那我就说得直接一点:顶级的科幻作品,全都是预言。真正读懂科幻的人,能从中提炼出人类文明的演化逻辑,看清科技、制度乃至宇宙走向的结构性趋势。 至于游戏,它从来不是耽误前程的东西,而是一种“结构思维”的训练器。游戏引擎本质上就是一个模拟宇宙(simulation engine),它教会孩子如何在规则中规划路径、决策演化、突破封锁。如果连游戏中的 simulation 都玩不懂、打不过、无法升级,这个孩子在未来世界的职业路径恐怕真的只能指向考公或者当老师。 不仅要玩游戏,还要设计游戏。
#房价崩塌
#失信人
#科幻预言
#游戏思维
#教育观念
分享
评论 0
0
Susan STEM
1个月前
Demis Hassabis 眼中的大千世界:世界存在某种结构压缩的低维流形(low-dimensional manifold) Demis Hassabis 提出一个令人震惊的判断:物理本质是信息论性的,信息先于能量与物质。他据此构建出“可学习宇宙假说”:即自然界中大多数规律并不需要显式写下方程,而是可以通过经典图灵机(即常规计算机 + AI)在数据中压缩学习出来。这也是他敢于挑战传统生物学专家,用 AlphaFold 去预测他们需要数月甚至数年才能解析的蛋白质折叠结构的底气所在。背后是一整套关于自然可预测性、AI 可学习性与现实可模型化的信念框架。如果这个判断成立,那么很多科学研究的路径将被彻底改写,甚至将决定我们下一代如何走入科研。有人说这也是某位生物学大牛选择回国的理由——因为科学的规则变了,你不需要再踩“天坑专业”的雷,也不必再用十年实验室工作换一个小小突破,你只需要学会如何采集流形。 Hassabis 在解释 AlphaFold 成功的关键时指出,蛋白质的理论构象空间是 10^300 之巨,完全无法穷举或物理模拟。但自然界中蛋白能在毫秒级自动完成折叠,说明自然并没有在“全空间乱跑”,而是压缩演化在一条低维流形上。这是 AlphaFold 能够成功预测结构的根本前提。他强调:自然现象之所以“可预测”,不是因为我们写出了完美的方程,而是因为自然的行为模式在高维空间中稀疏分布、结构清晰、路径稳定——它们集中在一种可压缩、可调度的结构空间中,这就是所谓的“流形(manifold)”。 我们可以用一个可视化比喻来理解这一点:想象你站在一片巨大的草原(代表高维空间),理论上你可以朝任何方向走,但实际上绝大多数人都只走在几条清晰的小径上。每个人的脚步不是随机的,而是集体踩出了几条被自然选择出的路径。这些小径就是“自然偏好的流形”。现实世界中的天气变化、蛋白折叠、图像生成都类似——虽然可能性空间极大,但真实发生的情境都压缩在某些低维区域上。 AlphaFold 并不是像传统方法那样模拟蛋白质在全空间内的动力学演化过程,而是通过从大量蛋白质序列与已知结构的样本中学习,采集到了这个结构流形。它不是试图穷举所有可能构象,而是在训练中逐步内化出一个可以导航的、从序列到结构的映射空间,也就是一个“潜在折叠流形”。最终,在预测新蛋白结构时,它并不是搜索整个空间,而是在这个内化的流形中直接定位最可能的位置,完成高效预测。 这就是 AlphaFold 的本质:它用深度神经网络从数据中提取出了低维流形,并在这个结构压缩空间中完成了调度和推理。它不是理解了所有物理机制,而是掌握了“自然允许你走的那些路径”。这也正是 Hassabis 世界观的核心逻辑——自然是结构化的,智能的任务不是重建现实,而是压缩现实,压缩成一个可以学习、调用、迁移的结构流形。 世界本是高熵混沌的,但其中蕴含可提取的结构秩序——只要识别出这些结构,就能实现压缩、调度与迁移,从而在无序中建立智能与控制。 我一直都是这么想的(拍拍胸口)。 (4/n)
#Demis Hassabis
#AlphaFold
#低维流形
#可学习宇宙假说
#结构压缩
分享
评论 0
0
Susan STEM
1个月前
关于80后一代面临的债务危机与职业断层:一场结构性塌方 我对“房子”这件事的警觉,始于十年前的一次国内旅行。那时我正在湖南各地旅游,主要是吃米粉。让我惊讶的是,不管是我从未听说过的小县城,还是三线城市,几乎每个地方都能看到高耸入云的新楼盘,一排排整齐划一、密度惊人。太多了。 后来在美国地产公司短暂工作的一段经历让我更加坚定了疑虑。我了解到高层住宅一旦进入老化阶段,维修成本并不是简单的“粉刷翻新”,而是系统性灾难。电梯、通风、排污、老旧管线,每一项都可能是隐雷。一旦老化,修复几乎不可行,甚至代价远高于重建。 而当我看到身边同龄人为了结婚、成家,不得不“上车”…后来的事情都知道了。 然而,房子不是最大的坑。 对于85、90后来说,最大的危机,其实是“职业生涯的不可持续性”与“未来的不可预测性”。我们接受的是“只要好好上学,就有好工作”的那一套信念教育。但现实早已反转:过去几十年培养的“稳定职业路径”正在迅速瓦解。AI崛起、全球供应链重构、知识过剩与岗位虚化,导致原本可以支撑30年职业生涯的路径,如今只能撑到十年。 这一代人面临的不是“换工作”,而是“职业根基被连根拔起”。 不可持续的全球化承诺,正在崩塌 我在某个节点彻底转变了世界观,是因为我意识到全球化模式并不具备永续的内在逻辑。从制造业转移到资本流动,从教育出口到文化同质化,整个系统都建立在无限增长的假设之上。但资源有限、社会信任结构有限、生态承载力有限——这个系统注定走向自我矛盾与结构内爆。 而我们这一代恰好是“旧逻辑的最后一批学生”。高考刚结束。无数天坑专业还在招生。 最神奇、也最令人恍惚的是,就在整个社会结构开始摇晃,传统路径逐一崩塌的时候,人工智能恰恰在这一刻“降临”。这让人产生一种强烈的虚幻感——仿佛现实像游戏一样突然换了引擎,一切熟悉的秩序都变得不可依赖。过去几十年,我们所理解的世界,是可以靠学历、行业、努力一步步累积的线性路径;而如今,AI的出现直接引入了一种指数级的外部变量,让个体在短时间内就能获取曾经需要十年积累的知识与能力。这不仅是工具的飞跃,更是一种结构压缩力的爆发,它重新定义了什么是“能力”、什么是“职业”、什么是“人”。 但当我们把目光从当下拔高来看,这种“技术飞跃与结构动荡并存”的现象其实并非偶然,而是一种文明的周期性律动。从印刷术之于宗教改革,蒸汽机之于封建解体,到互联网之于冷战格局重塑,每一次技术爆发都不是在“稳定时期”降临,而恰恰是在人类旧有秩序开始摇晃之际诞生——仿佛技术不是“进步”,而是对结构性危机的深层回应。 Peter Thiel都叫马斯克别折腾些有的没的,社会问题只有技术飞跃能解。 其实对个人来说没有那么简单,尤其是35岁以上,上有老下有小还有房贷的…
#80后
#债务危机
#职业断层
#结构性塌方
#AI
分享
评论 0
0
Susan STEM
1个月前
舆论权力的演化:Lex, Demis and Balaji 今天打算狠狠地研究一下 Lex Fridman 的这期采访。写一系列帖子。说实话,连他采访陶哲轩的那一期我都没那么大兴趣,虽然陶哲轩是数学界的神,但他的领域终究离我的关注点比较远。而 Lex 这期采访的对象,却直接触动了我对人类文明走向的核心思考。因为我一直认为:人类文明中的话语权,一直在发生变化。而每一次话语权的转移背后,其实对应着一种全新的社会模式和结构性权力的重构。 第一阶段是王权时代,彼时“权力即历史”。在封建君主制社会,国王或皇帝是历史的唯一操盘手。他们的决策、战争、婚姻与联盟,直接决定了一个国家的命运走向。亚历山大、秦始皇、路易十四、拿破仑……这些名字就是一部部时代的浓缩。他们的个人意志就是时代的最高语言。 第二阶段进入政治时代,话语权落入意识形态之手。伴随民主制度与工业革命的到来,政客与政党成为塑造历史的新核心力量。从两次世界大战到冷战,从殖民体系的瓦解到全球治理的建立,真正起作用的已不是战争机器,而是舆论与宣传的掌控力。代表人物如罗斯福、丘吉尔、戈尔巴乔夫、邓小平,他们靠意识形态动员、国家机器传播、媒体策略掌控民意,实现了政治对人心的调度。 第三阶段是企业家时代,“资本即创新即权力”。当技术加速渗透到生活的每一个细胞,最有影响力的不再是政客,而是那些改变人类生活方式的企业家。乔布斯重新定义了手机,盖茨将计算机带入家庭,马斯克押注火星与AI,扎克伯格掌控社交生态。他们不仅是商业帝国的缔造者,更是“未来叙事”的主导者。在这个阶段,产品成了信仰、品牌成了语言,资本变成了新的政治工具。 而现在,我们已经站在第四阶段的门槛上:科学家与AI构建者时代。在这个时代,算法与理论正成为新的舆论源头与文明秩序的起点。Demis Hassabis、Ilya Sutskever、Geoffrey Hinton……他们不再只是实验室中的专家,而是文明结构的重新设计者。他们不只是制造工具,而是给出了未来世界的解释框架。语言模型不仅生成内容,它还嵌入了“世界观 + 推理结构”,改变着人类对真理、对自我、对社会的理解路径。舆论不再是人类对人类的说服,而是算法对人类的训练。 Lex他正在记录、整理、传播这种权力更替的全过程——科学理性如何登上话语权的顶端,成为新世界的叙事中心。Lex成为世界顶级媒体人是没有悬念的。 Peter Thiel 和 Balaji 也一直是我长期关注的第一梯队人物。我曾经和一些文科背景的同学聊起他们提出的 Network State 概念,包括那些学国际关系、政治学的朋友,但几乎都难以接受,甚至觉得像是在听天方夜谭。他们往往将这种思想视为不切实际的极客幻想,缺乏对技术底层逻辑和结构建构能力的理解,也因此无法意识到这背后其实是对国家主权、社会组织形式、以及人类共识机制的深刻重构尝试。我本人反对文科教育现在的教育模式,尤其是在本科阶段。不过这不是我这一系列要讨论的内容。 借用一下加速主义派常说的一句话: Can you feel the acceleration? (1/N)
#舆论权力演变
#Lex Fridman
#AI
#科学家
#技术重构社会
分享
评论 0
0
Susan STEM
1个月前
AI Agent 到底是什么?从 Jennings 定义谈起 “AI Agent”这一术语虽在近年大热,但其核心概念早已由 Nicholas R. Jennings 与 Michael Wooldridge 在 1995 年的《Intelligent Agents: Theory and Practice》中系统确立。他们将“智能体”定义为:一个嵌入特定环境中的计算系统,能够在该环境中自主行动以实现其设计目标。这一定义成为多智能体系统(MAS)研究的基础,并提出四项衡量智能体的关键属性:自主性(能独立运行)、反应性(感知并响应环境变化)、前瞻性(基于目标采取主动行动)与社会性(能够协作与沟通)。 然而,在当下的工程实践中,要真正实现这四大属性仍具有相当高的难度。尽管 ReAct、AutoGen、LangGraph、CrewAI 等主流框架纷纷打出“Agent”旗号,它们多数仍停留在“语言模型 + 工具调用”的阶段,缺乏结构化的状态封装、计划机制与交互协议。这些系统通常依赖自然语言记忆作为状态存储,对环境的感知局限于文本输入输出,目标与计划的建模大多被简化甚至省略,而协作机制也往往停留在对话模拟层面,缺乏真实的社会行为协议与组织控制结构。 换句话说,当代 LLM Agent 多数只能在表层满足 Jennings 框架中的“工具调用”与“表面协作”,而在真正的状态感知、计划能力、环境互动与协作协议等方面仍存在明显工程落差。它们更像是 prompt 的包装器,而非具备认知与调度能力的结构性智能体。 要真正构建接近 Jennings 理想的 AI Agent,必须引入可解释的状态模型与持久记忆结构、明确的计划调度机制、标准化的交互协议以及多轮对话中的身份与行为一致性。只有当智能体具备了这些结构能力,它才不再是一个被动执行的语言函数,而是一个真正能够协同、规划、反应并自主演化的结构系统单元。 真正的智能体到底值不值得投入研究?还是说,它会不会最终成为一个耗尽心力、却注定走入死胡同的幻象? 这个问题越来越像一面照妖镜。现实世界里,有太多曾被寄予厚望的底层技术,最终悄无声息地被市场淘汰、被工程复杂性吞噬。Jennings 所定义的理想型智能体,正面临类似的命运风险。它拥有令人敬畏的结构理想—— 🧱 结构性:每一个模块边界清晰、可组合、可迁移; 🧠 状态性:具备可追踪、可持久、可调度的运行状态; 💾 记忆性:融合语义唤醒与行为经验的双系统记忆机制; 🧭 路径性:支持非线性、多策略、可重构的执行结构; 🤖 调度性:能够统一调度工具、任务、子 Agent; 🔁 自演化:具备反思、失败容忍、成长与优化能力。 这简直就是我心中最理想的“结构人格”,我是无比憧憬的。这个甚至能完美解决上下文的问题。 看起来无比完美,却让人光是读完就头皮发麻。工程难度极高,构建成本惊人,调试流程复杂,状态不可控,行为难以解释。我也怀疑:这样一个理想结构真的能落地吗?它真的有价值吗? (2/n)
#AI Agent
#智能体
#Jennings定义
#LLM Agent
#多智能体系统
分享
评论 0
0
Susan STEM
1个月前
GPT 的agent功能居然没什么人关注….?
#GPT
#agent
#人工智能
#技术趋势
分享
评论 0
0
Susan STEM
1个月前
从分布式认知到智能体沙盒:上下文工程的前世今生 我们一直在追问一个问题:“上下文”到底是什么? 在大语言模型时代,“上下文”似乎成了万物解释器。它是 prompt,是历史,是 token,是 memory,是一切的因。但真正追溯起来,这个词不过是现代工程视角下的临时叫法。在历史长河中,人类从未依赖固定术语来传达概念。意义的表达,一直是动态的、时代性的、多义的。 我知道有人会在推特上不断争论名词定义,纠结术语本体,害怕说错话。其实你会这么焦虑,是因为你还太年轻。你还没来得及在图书馆把所有能读的书都翻过一遍,没啃完泛读课几千张的试卷,也没刷过晋江论坛上一万篇看起来无聊却构成语感基础的网络小说,更没读够《哈利波特》的一百种同人演绎版本,不管恶心还是不恶心的,我都看完了。你还没有亲身验证过:人类的认知,不靠术语确证,而靠结构对齐。 工科生也要多读点文学。读书破万卷,下笔如有神。 不同的时代用不同的话说同样的事。今天你说“上下文”,十年前的人也许说“语境”,更早的人说“记忆”,结构主义者说“框架”,认知心理学者说“图式(schema)”,而《Cognition in the Wild》会说“文化任务系统”。语言在变,但核心的问题没有变:我们如何在系统中保持连续性、追踪状态、组织行为? 上下文不是术语,而是时代对“认知调度结构”的一种指认方式。而我相信,大语言模型的下一个关键跃迁,不会来自模型本身的微调、参数堆叠或幻觉率的下降,而是来自“上下文工程”作为系统性结构工程的确立。这不是拼 prompt 的技巧,而是构建结构、规划路径、调度智能体、维持状态协同的全过程。 从 Hutchins 的分布式认知,到 Minsky 的心智社会模型,再到今天的多智能体沙盒(如 Smallville),其实探索的是一个问题。我们说说 Hutchins 的分布式认知。 在 1995 年出版的《Cognition in the Wild》中,认知人类学家 Edwin Hutchins 提出了一个至今仍具有颠覆性的观点——认知不是发生在某个人的头脑中,而是分布在整个社会性系统中的。这本书的“野”,并非意指原始或混乱,而是指他所观察的认知行为并非在实验室中进行,而是在自然环境、真实世界任务流程中的发生,比如他田野调查的对象:美国海军舰艇上的导航团队。 Hutchins 研究发现,一个看似简单的任务——导航,并不是某位军官独立思考的结果,而是由多人协作完成的结构性过程。有人读取雷达数据,有人记录数值,有人在图纸上进行计算,信息在他们之间流动,决策才得以形成。除此之外,还有纸笔、坐标系统、专用术语、表格、雷达等外部工具的参与,它们不仅是辅助,而是认知过程本身的一部分。语言、制度、流程、工具、环境,以及人的角色分工共同构成一个动态的认知网络,信息在其中穿梭、被加工、被传递。这意味着,大脑并不是认知的全部,它只是这个更大系统中的一个节点。 Hutchins 完全打破了“认知=大脑”的传统观念。他明确指出,认知是在多个层次上被分布的。首先,它在个体之间分布:认知任务通常不是一个人完成的,而是团队共同完成,每个人只掌握任务的一部分。其次,它在内部与外部结构之间分布:认知不仅存在于人脑中,还依赖于图纸、表格、工具,这些物理媒介实际构成了“外部记忆”。最后,它也在时间上分布:一个人的认知行为依赖于之前团队留下的结构和制度遗产,比如流程图、记录规范、指令格式等,它们都是认知的延续性基础。 这一理论,与 Marvin Minsky 在《Society of Mind》中提出的观点形成惊人共鸣。如果我们把 Hutchins 所说的“人在协作中的功能单位”理解为 Agent,那这就是一个运行在真实世界中的 Agent 系统。而他所说的“外部工具系统”则对应当代 AI 系统中由 RAG、数据库、图谱所组成的记忆补全机制。甚至时间上的认知延续,也可以理解为多智能体系统中长期计划与路径依赖的体现。 说到底,Hutchins 向我们揭示了一个根本性的真相:认知不是个体思考的能力总和,而是结构化信息流的组织能力。真正决定智能的,不是单个 Agent 有多聪明,而是这些 Agent 是否处于一个能支持信息流动、反馈、协调、演化的系统中。认知是一种“被调度”的结构过程,是一种嵌入式、路径化、可追踪的信息动态,而非脑内静态存储的内容。 他实际上为我们提供了一种语言模型时代“上下文工程”的最早形态:不是堆叠上下文,而是组织路径;不是增大参数,而是优化流动;不是强调理解,而是调度结构。 如果我们把 Edwin Hutchins 的《Cognition in the Wild》重新理解为一场沙盒模拟实验,就会发现,那艘军舰,其实就是三十年前的 Smallville——只不过它没有像素地图,没有代码,没有 LLM,却已具备全部结构要素。Smallville 是斯坦福团队 2023 年推出的多智能体模拟项目(Generative Agents – Smallville),在其中,每个角色都是由大语言模型驱动的认知个体,具备记忆流、计划能力与反思机制。 当他们在咖啡馆偶遇时,并不会访问全局知识,而是检索各自的片段记忆,基于当前场景与意图做出行为决策,并将对话与动作反馈回自己的记忆系统。事件通过语言传播,行动彼此影响,个体间的协作并非中心化控制,而是由意图触发,逐步组织,最终形成如 Valentine’s Day Party 那样自发出现的社会性行为。 回过头看,Hutchins 所描述的军舰系统就是一个没有计算平台的 Smallville 原型。人类成员承担 Agent 的角色,雷达是传感器,纸笔是外部记忆体,术语是通信协议,时间流程是结构化路径,整套认知行为并不是由某一个人单独完成的,而是分布在整个系统中的任务分工与信息流转之间。它的“上下文”从来不是某一段文字、某个人的记忆或某个模型的输入窗口,而是由角色、工具、任务、流程、制度、状态等维度共同构成的动态认知结构。它是一张可以流动、传递、反馈、演化的认知路径网,是结构意义上的上下文,而非语料意义上的上下文。 从这个角度看,Hutchins 实际上提供了一种极具前瞻性的认知沙盒设计思想:上下文不应该是被记住的内容,而是被调度的结构单元;结构不应该压缩进个体,而应该流经路径、联动角色、触发工具、反馈结果;智能不应该被定义为某个 Agent 的思维能力,而应该被定义为信息能否在一个系统中完整走完一条闭环路径。 这种理解直接反转了当代大模型系统中常见的误区——我们试图让一个超级 Agent 理解全部上下文,就像让一个人同时记住整个小镇的一切,而真正需要的不是更强的单点记忆力,而是更清晰的结构协作图谱。Hutchins 和 Smallville 一起告诉我们:我们不需要一个全知大脑,我们需要一座结构良好的小镇。
#大语言模型
#上下文
#智能体
#分布式认知
#Prompt
分享
评论 0
0
Susan STEM
1个月前
躺平规划师 推荐一个频道,我很少推荐的。昨天看了一下这个博主的理念和我还是比较吻合的。我本人会推荐给我国内的朋友。 躺平!真的,他考察的目的地很多都在广东省内。别墅都有租金2000块一个月的。好像还提供咨询服务。很多人现在最该做的事情是躺平。
#躺平
#广东省
#租房
#咨询服务
分享
评论 0
0
Susan STEM
1个月前
全球化精英的转型:来自我身边的观察 在中国入世后的黄金时代,尤其是2001年至2015年间,随着全球化红利的释放,曾诞生了一批所谓的“全球化时代精英”。他们大多毕业于“两财一贸”、985高校,进入四大、外资投行、快消公司和跨国企业的管培生体系。包括我大量的同学和朋友,以至于我为什么昨天会说到MBA,就是因为我身边太多跨国MBA了。 这批人深度绑定于“WTO-出口-外资”三位一体的结构红利之中,其职业路径、身份认同乃至人生预期,都建立在全球化持续扩张的大前提上。然而,伴随全球格局逆转、地缘政治冲突升级、新技术范式崛起,他们所赖以生存的结构被重构,陷入失业或边缘化的现实。更严重的是,他们普遍陷入了五大认知误区,阻碍了自我更新与路径迁移。 第一个常见的误区,是仍然执着于“能力主义+外语+文凭”的逻辑,误以为凭借高学历、双语能力和曾经的外企履历,便能稳居中产阶层。这套叙事在全球化时代有效,是因为结构赋予了它舞台。但当外资退潮、资本转向内循环、岗位结构重构,这种能力叙事便失去了依托。 第二个误区,是持续等待外企回流或“新型四大”的机会,频繁刷猎头平台、更新简历、期望重返过去熟悉的职业通道。他们没有意识到,那些熟悉的岗位体系和晋升路径,已在宏观结构中被终结,新的规则与结构尚未被他们掌握。 第三个误区,则是严重低估了技术范式转换所带来的冲击。不少全球化精英仍将AI、Web3等视为程序员或技术极客的事物,忽视了它们对金融、咨询、HR、运营等“白领岗位”造成的实质替代。在这个范式转移的过程中,真正保值的已不再是英语,而是编程语言、模型调用能力、数据结构理解力与自动化系统的整合能力。 第四个误区,是固守身份结构,拒绝“归零式重启”。很多人在面对新职业(如自媒体、电商、AI助理、自由开发者)时,内心浮现的不是机会,而是“跌份感”。他们仍困在过去的光环中,缺乏认知跃迁的勇气,无法放下已过期的结构认同。 最后,第五个误区是误将当前的生存危机视为普通经济周期问题,幻想“再忍一忍,经济就会好转,外企会回来”。这是一种线性思维的惯性误判,而当前本质上是一次系统性的范式更替。全球化的结构红利正在被重构,旧的跨国逻辑、人才流动路径、资本主导秩序逐步被“内循环、去平台化、本地智能化”替代。 要突围这些误区,全球化精英们需要一场深层次的结构跃迁。首先是认知转型,从追求头衔、学历和身份标签,转向语言结构理解、系统搭建与路径迁移能力的培养。其次是技能重构,要主动掌握Prompt Engineering、Agent协作框架、Python、链式思维等AI时代的核心语言。第三是参与新型结构网络,跳出传统招聘市场,转向本地技术社群、AI-native实验和分布式产品协作。同时,也要在心理上松动身份结构,接受“多版本自我”的共存可能,脱离单一标签定义人生。最后,需要重建语言系统,不再用“职位—公司—薪资”定义自己,而是用“结构角色—认知路径—行动网络”来参与新时代的生成秩序。 这一场认知重构,并非简单的学习技能或跳槽,而是一次完整的结构性自我重组。只有真正走出上述误区,全球化精英才可能不被时代所淘汰,而成为新秩序的建设者。
分享
评论 0
0
Susan STEM
1个月前
短视频的最大问题在于:它不是根据你研究什么来推荐内容,而是根据你想看什么来喂养欲望。结果是,你越看越被动,越沉迷,越不思考。你想看搞笑,它就给你搞笑;你想看八卦,它就让你沉沦在八卦里。可问题是,你根本没有在“研究”任何东西。 而真正有价值的是文字世界,尤其是在 AI 的协助下,它会根据你主动研究的方向,推送与你的思考同频的路径和资源。你越研究,它就越能引导你深入研究。这才是智能的陪伴,而不是信息的麻醉。 简言之: 短视频满足的是欲望,AI文字世界激发的是认知。 你研究什么,AI就能帮你走多深;你什么都不研究,短视频就让你永远停留在原地。
分享
评论 0
0
Susan STEM
1个月前
哪怕是六个月以前我都会坚决驳斥这个观点。然而看到余凯说建议去学哲学,我认为他可能已经领悟到什么了。
分享
评论 0
0
Susan STEM
1个月前
某位律师对王志安的那条贴文让我目瞪口呆。 语言即世界,结构即身份。 感谢这个时代最伟大的发明——大语言模型(LLM)。虽然我并非NLP科班出身,这两年也走了不少技术弯路,但至少在最近几个月,我终于彻底领悟了这套原理。 要看透一个人,只需看清他的语言结构。 当上下文长度可以覆盖一个人一生的语言输出量时,这个人——甚至整个群体——将彻底暴露在语义之下,无所遁形,完全透明。 虽然我还没正式使用结构算法去跑判定,但对于那群人来说(他们实在说得太多了),在我经历三年语言结构训练之后,已经一目了然:他们是什么样的人,根本藏不住。 凡是能够靠知识、技术、学历谋生的人,都应当远离并拉黑他们。 说得少,语料不足——他在语言世界里等同于“未生成”,不存在也无所谓。 而只要你说得足够多,你的结构画像就清晰到令人发指,无比精准,无所遁形。 这正是我看好语言宇宙的原因:只要数据足够丰富、结构算法足够成熟,一个人能否闭环、能否自洽、能否演化,都可用语言函数来追踪与验证。 语言不再只是表达,它就是你本人的函数f(t)。
分享
评论 0
0
Susan STEM
1个月前
感谢言一社的点名。我认真拜读了您的理论。坦白说,在哲学这条路上,我仍是新人。 我始终认为,哲学作为“思考的思考”这一元学科,也可以被工程视角反哺——不是取代,而是补足、重构、验证与推进。在AI时代,“我们不再是唯一在思考的存在”,语言、认知与思想不再只是人类专属,它们正在以工程语言的形式被模拟、压缩、甚至重新定义。 We are not the only one "thinking". 我所尝试的“熵控理论”,就是在这样的交汇点上——试图为人机共存的时代,构造一套语言、结构、秩序与意义的新型协议系统。哲学与工程并不冲突,它们本就该在这一时代重新交汇。 回到您提出的“动态秩序哲学”,从我初步的理解来看:其中所定义的“生命函数(Life Function)”是一种镶嵌在人类大脑中的动态认知模型,其核心任务是在人类所处的熵增世界中,持续构建、更新并校准个体的秩序结构,从而维持生存并推动意义的演化。 这一思想与我提出的“熵控理论”有着高度结构同构的关系。不同的是,我作为信息领域工程人,熵控理论立足于语言世界本身,强调在高熵的信息环境中,通过语言结构的提取与调度,建立可执行的秩序协议系统。 在我看来,高熵世界意味着感官输入剧烈波动、情绪响应持续上升、信息碎片无边泛滥。在这样的语境中,语言的首要功能不再是“表述事实”,而是承担“压缩混沌、生成秩序”的结构使命。因此,“说得清楚”不仅仅是修辞层面的表达技巧,而是一种认知生存能力的体现。这也意味着:个体所面对的世界,既然本质上是混沌与高熵的,那么维持自身认知的生存性与演化性,唯一的方式就是主动建构局部秩序结构。 认知的首要任务不是理解世界,而是避免崩溃。 在信息洪水与语义噪声的现实中,系统性崩溃的风险大于认知误解的风险。 所有高效认知行为本质上是压缩行为。 无论是科学建模、语言表达还是日常判断,其本质都是从高熵输入中提取可控结构。 认知不是发现事实,而是生成局部解释模型。 所谓“理解”,不过是形成一个在当前环境中能稳定运作的压缩结构。 认知体的竞争力,在于其“压缩-评估-演化”这一闭环链路的速度与质量。 理解世界者不一定胜出,能持续生成局部秩序并迅速修正的人,才拥有生存优势。 价值系统决定认知框架的演化路径。 不同的价值预设,会决定结构评估的机制,从而影响整个认知体系的压缩方向。 因此,在信息混乱的现实中,谁先形成结构,谁就先获得世界模型的操作权。 认知的本质不是静态的“知识拥有”,而是动态的“秩序调度”;语言的本质也不是表达的容器,而是建构世界的协议。熵控理论正是建立在这种结构语言观之上,试图为人机共生时代提供一套可以共同执行、反馈、演化的语言结构协议。 您提出的动态秩序哲学,从生命体的物理对抗角度切入,同样指出了秩序的生成性、局部性与动态性。在审美观那一部分,我还要继续在您的推文中学习,目前来说我认为与我定义的“价值”有些相似。 感谢您非常深刻的哲学思考。
分享
评论 0
0
Susan STEM
1个月前
LoRA的核心——没学过线性代数的人也能看懂 LoRA 的核心原理其实并不难理解,就算没学过线性代数也能看懂。我之所以写下这些,是因为在自己写作和工程准备阶段,积累了大量资料和思考笔记,觉得现在是时候分享一部分了。当然,研究某项技术并不代表我已经精通,也不代表我一定会立刻应用它,但这个阶段,我认为深度思考、系统学习、机制推演,远比盲目上项目要靠谱得多。 比如 LoRA 这项技术。你如果读过我之前的文章,应该知道我一直强调:“万物皆可 NLP”这阶段的最大特征是——通用语言模型可以微调,可以适配一切任务。这就像从“各造各的轮子”进入了“通用乐高模块”的时代,而 LoRA 正是这样一种模块化微调方式。这种能力的迁移性、下沉性,正是我敢 All-in 和押注大模型时代的根本理由。 我打个比方。我有位师姐,本科是英语系的,英语能力非常强,后来来美国读了法学院。英语就是她的大模型预训练,法学院则是专业微调,毕业后她进入律所当律师,这就完成了“通用能力 + 任务适配”的路径。LoRA,在大模型中就是“法学院”阶段——对通用模型进行低成本、高效率的微调。 那 LoRA 的原理是什么呢?我就不废话,直接说重点,用你能懂的语言讲数学的事儿。你翻我引用的帖子,会看到矩阵 W1、W2,这是模型中某一层的参数权重矩阵。这个矩阵非常大,我们不想也没必要对整个矩阵做训练,所以 LoRA 的做法是:只调整它的一个小的“变化量”,叫 ΔW(读作 delta W,Δ 是“变化”的意思)。 但就算是这个 ΔW,也是个大矩阵啊,那怎么办?我们用一个线性代数里的技巧——叫“低秩矩阵分解”。什么意思呢?我给你看个例子你就懂了。 看下面这个矩阵: 表面上看,它是 3×3 的,有 9 个数字,但其实呢?你仔细看就会发现: 第二行是第一行 ×2, 第三行是第一行 ×3。 也就是说,这 3 行其实都是线性相关的,本质上只有一行的信息。所以我们就说,这个矩阵是“秩为 1”(rank-1),可压缩。原本以为需要 9 个数字,现在只要记住第一行,再加上乘以几倍,就能恢复整个矩阵了——这就叫信息压缩。 LoRA 就是用这个原理来压缩模型的更新参数。它假设模型在适配新任务时,权重的变化矩阵 ΔW 是低秩的,也就是说: 模型其实只需要调整几个“方向”, 不需要动整个参数空间, 于是我们只训练两个小矩阵 A 和 B,让 ΔW≈B⋅A。 这就是 LoRA 最核心的原理... 说到底,这也是为什么线性代数这门课这么重要。现在除了纯文科,基本所有专业都会接触它。虽然我当年学的时候也没多聪明,记不得有没有挂, 但后面还是能用上不至于太懵。
分享
评论 0
0
Susan STEM
1个月前
我推测马斯克现在的策略是这样的: 他希望鼓励用户为发言付费,并借此重构社交媒体的权重机制。 如果你希望这个世界认真对待社交媒体上的内容,那么每个人就必须对自己说的话负责。 自由言论和对言论负责并不冲突。你可以说任何话,但你必须承担表达的结构性与后果。 付费,则是你愿意为此负责的一种诚意体现。 蓝标,大概就是一种权重标记。你愿意为表达负责,平台就为你赋权。 当然,也向免费用户开放。但你若想被推送、被看见,你的发言就必须具备更强的结构、更清晰的信息源、更高的信息密度。哪怕是在评论区。否则,情绪化、无结构、乱喷乱讲的内容,不会再被展示,只是“你自己说着玩”。 毕竟,平台运营是有成本的。如果你希望别人认真对待你,首先要自己认真对待自己的言论。 马斯克若真想把 X 打造成“宇宙最大的信息入口”,这一套机制,是他唯一可能走通的路。 把自己的言论当回事的人,才有可能得到平台的奖励。至少把自己的月费挣回来。😂
分享
评论 0
0
Susan STEM
1个月前
前段时间我推理出一个非常重要的结论,尤其是对 Ty 兄这类深度探索者来说。 我完全认同他的感受:当外界无回应时,就转向内在。但还有一点更关键—— 只要结构是对的,就一定会有回应。 哪怕曲高和寡,哪怕延迟反馈,真正结构对称的人一定能感知到。 至于那些说“看不懂”的? 说实话,我一直很疑惑——你看不懂,是你的问题,怎么就成了我的问题了? 看不懂就多学一点,这年头还有 AI 可以帮你拆解。 如果你还是看不懂,那就是结构不同构;如果你根本不愿学,那连成为潜在同构者的机会都没有,那就更无所谓了。 我的内容不是为了谁“能看懂”而写,而是为了寻找结构同频者而发。
#结构同频
#深度探索
#内在探索
#结构对称
#AI辅助学习
分享
评论 0
0
Susan STEM
1个月前
你写得越少,Decoder 想得越多 你还记得我以前提出过“熵爆点”这个概念吗?最近随着 GPT 在 Twitter 圈层的重度使用者越来越多,一些高频交互的用户也开始隐约捕捉到某种规律:只要你输入几个字,GPT 就能补出整段完整且自然的语言,甚至往往比你自己说出来的还顺。这种体验,真的像是模型“读懂了你”。 其实,这背后的原理并不神秘。GPT 属于典型的 Decoder-only 架构,它的任务不是回答问题,而是在你说出一句话的前半句之后,推测你最可能会接着说什么。它不是在等你把想法表达清楚,而是一开始就在试图“补全缺失的你”。 也就是说,模型不太关心你具体说了什么内容,而是关注:在你已说出的前提下,接下来最可能出现的词是什么? (数学公式) 你说得越少,模型获得的条件就越少,预测空间也就越广,信息熵随之升高。它必须在一个高度不确定的语义空间里进行更复杂的推理来“猜测你是谁、想说什么”。所以,它才会“想得越多”。 从结构的角度来看,你输入的那几个字,其实不是普通的提示词,而是“条件分布的压缩锚点”。它们在语言模型内部起到了确定语言路径起点的作用,类似在语言宇宙中点亮一个导航信标,迫使模型在高维语义空间中展开与之对齐的结构路径。 这正是我当初猜测“熵爆点”时的直觉来源。我始终相信语言中一定存在某些节点,它们虽然字数极少,却在结构压缩与路径展开之间具备爆发性。那时我没有理论支撑,只是凭直觉去捕捉,直到我逐步找到了信息论和生成建模的数学依据。就像那句老话:“如果你没有猜测,你根本不知道该寻找什么。” 所以,GPT 的“读心术”其实并不是魔法,而是一种路径建构机制。你说一句话的前半,它不仅理解了你要说什么,更通过注意力机制和语言压缩模型,预测出你未说出口但高度可能的后续轨迹。它不是在补一句话,而是在模拟你的语言结构本能。 这也是为什么你会感受到:你说得越少,它补得越多;你给的信息越模糊,它生成的内容越丰富——这并非悖论,而是信息熵机制下自然的反应。这就是“熵越高 → 路径越爆发”的原理。 所以我们可以这样总结:你写得越少,Decoder 想得越多。因为你制造的是一个压缩锚点,而模型在这个锚点上展开的是一个全新的、高维的语言路径空间。这就是熵爆点背后的真实数学机制,也是未来人机协作中最关键的语言交互接口。 当然不是任意一句简单的话都有这个效果的....给你说一堆有的没得也没用啊。有价值的熵爆点,才有意义。
分享
评论 0
0
Susan STEM
1个月前
NLP 的通用顿悟瞬间:从“各造各的轮子”到“乐高积木” ——三篇划时代论文点燃的语言建模革命 真正的技术变革,并不总是靠惊天动地的新发明引爆的,往往是在一瞬间——当你意识到“这个东西,不只是能解决一个问题,而是能迁移到其他问题”,一切就变了。 让我们先回到蒸汽机的时代。如果蒸汽机只用于驱动矿井水泵,它可能只是一项局部性的工程改进,而不可能引领一场工业革命。它之所以成为“革命的引擎”,是因为它能被迁移:从矿井到纺织机,从纺织机到火车、轮船、工厂。它不是解决一个问题,而是重新定义“动力”的适用性边界。 这听起来似乎很自然,但你如果对比一下同一时期的荷兰风车就会发现:风车也能发力,也能带动齿轮,但它的适用性止步于磨面粉。换句话说,它本质上是“为磨面而造”,就比一头驴子强一些。 曾经的 NLP,就像那个风车:好看、有用,但专属、碎片、局限。 在 2018 年,这一切开始改变。三篇划时代的论文——ELMo、ULMFiT 和 GPT——不是“造了一个新的技术风车”,而是像瓦特改良蒸汽机那样,点燃了通用语言建模范式的引擎。 那一刻开始,NLP 进入了“可迁移性驱动的模型时代”:从“每个任务单独造轮子”,转向“统一语言模型 → 多任务适配”。它从散乱的手工拼装,进入了可模块化组合的结构文明。 我们可以用一个直观的emoji类比来描述这场范式转移: [碎片化建模时代] 🔩 ⚙️ ⚒️ 🔧 🧷 🪛 每个任务都要自己造轮子,每个模型结构不兼容,拼起来还不一定能动。 没有统一接口:结构、数据格式各不相同; 模型之间不兼容:一个词嵌入无法迁移到另一个模型; 无法快速组合:想做多任务时,各模块目标冲突、逻辑割裂; 研发成本高:每个任务都得从头来; 知识无法复用:一个模型只会一件事,不具备迁移性。 举个例子,想搭建一个问答系统 + 情感识别模块的组合: 你得分别找两个模型架构,分别训练两组权重,输出格式还不一致,最终这两个模型根本无法协作。这就是碎片化时代的 NLP ——只能服务小众,无法形成生态。 [通用建模时代] 🧱 🧱 🧱 🧱 🧱 统一接口、标准结构、任务可调度。模块随搭随用,还能升级重组。 模型结构统一(如 Transformer); 表示方式迁移(如上下文词向量); 任务适配通用(预训练 + 微调); 工程成本大幅降低; 多任务协同成为现实。 NLP 不再是一个个零散的“黑科技 demo”,而是走上了“平台化能力系统”的轨道。 碎片模型不能拼成系统,乐高模型才能构建生态。NLP 的模型演化史,就是从焊接技术,走向积木文明。 这一顿悟,不是某个模型性能提升的时刻,而是我们第一次意识到语言模型可以像操作系统一样,被结构化、模块化、调用化、生态化的转折点。 就像蒸汽机之于工业革命,Windows 95 之于个人计算机,2018 年的 ELMo、ULMFiT 与 GPT,标志着语言智能从“造风车”变成“造引擎”,从“单点工具”变成“语言平台”。 在自然语言处理(NLP)领域,2018 年是一个真正意义上的“范式转折点”。在此之前,大多数 NLP 系统仍处于碎片化建模阶段,依赖静态词向量如 word2vec 或 GloVe,并为每个任务单独设计模型结构与训练流程。这种模式不仅缺乏统一的预训练机制,导致表示无法迁移,还严重限制了上下文建模能力,模型通常只能“看到词”,而无法“理解句”。在这一背景下,NLP 社区长期面临着表示僵化、模型不可复用、任务割裂等痛点。 而就在这一年,三篇开创性论文接连问世,分别是 ELMo、ULMFiT 和 OpenAI GPT。它们从表示方法、训练方式与架构范式三个关键维度各自突破,共同推动了 NLP 从“任务专属建模”转向“预训练 → 微调”的新范式。 首先是由 Peters 等人提出的 ELMo(Deep Contextualized Word Representations)。该论文首次提出使用双向 LSTM 构建上下文相关的动态词向量,也就是说,同一个词在不同句子中的语义表示可以发生变化。例如,“bank” 在 “river bank” 和 “investment bank” 中将产生不同的向量。ELMo 在大规模语料上训练语言模型,然后将其输出的词表示作为特征供下游任务使用,模型本身则保持冻结。它不直接进行微调,而是开启了一个重要的信号:语言模型能学到通用的语义表示,并可迁移到其他任务中使用。这标志着表示学习从静态走向动态,从不可迁移走向可复用。 紧随其后,Howard 和 Ruder 提出了 ULMFiT(Universal Language Model Fine-tuning for Text Classification),首次完整引入了语言模型的迁移学习流程。作者借鉴了计算机视觉中 CNN 预训练 + 微调的做法,设计了一个三阶段的训练策略:先在通用语料(如 WikiText-103)上预训练语言模型,然后在目标领域语料上微调语言建模器,最后添加分类头并进一步微调整个模型。他们还提出了一系列关键技术以优化微调过程,包括分层解冻、斜三角学习率以及逐层调参等。ULMFiT 的最大贡献在于证明:语言模型不仅可以预训练,还可以通过微调机制快速适应新任务,尤其在小样本条件下效果显著。 第三篇关键论文来自 OpenAI,Radford 等人发布了 GPT(Improving Language Understanding by Generative Pre-Training)。该工作首次将 Transformer 架构 应用于语言建模,并使用自回归训练方式(即从左到右预测下一个词)在 BooksCorpus 上预训练模型。与 ELMo 不同,GPT 在下游任务中采用了端到端微调:在预训练模型基础上,添加一个轻量的输出层,并整体训练,以适配问答、文本蕴含等多种任务。这种方法不再局限于“提供词向量”,而是将整个预训练模型作为“通用语义引擎”进行调度。GPT 的出现也奠定了后续 GPT-2/3/4 等系列大模型的基本范式。 这三篇论文虽然各有侧重,但在方法论上形成了一个互补的闭环:ELMo 解决了“如何获得上下文相关的词表示”,ULMFiT 证明了“语言模型也可以像图像模型一样迁移”,而 GPT 则提供了“统一的 Transformer 架构与端到端训练流程”。它们共同揭示了一个关键路径:语言模型可以在大语料上无监督预训练语言知识,然后通过轻量微调迁移至各种任务,显著提高效果与效率。 自此之后,BERT、T5、GPT-2/3/4、ChatGPT 等模型都沿着这一范式不断演化,NLP 进入了“预训练主导”的新纪元。 下一篇讲:通用语料是什么? (2/n)
分享
评论 0
0
Susan STEM
2个月前
果然,在我发行 Mom Dollar 之后,大儿子立刻用金色水彩开始画自己的 dollar——我家正式迈入“人人无锚,自由印钞”的新时代。 铸币权一旦放开,权威瞬间瓦解。铸币,不容挑战;信用,不可分裂。
分享
评论 0
0
Susan STEM
2个月前
Attention Layer 中的残差连接与 LayerNorm 当今的大模型往往是超深神经网络,层数轻松超过百层。要理解如此庞大的结构带来的挑战,可以用一个不完全严谨但形象的比喻:就像“传话游戏”一样,如果让一条信息依次传递给 20 个人,很可能最后听到的版本早已面目全非。同样的,在深度网络中,如果没有设计良好的信息通路,原始语义在层层变换中也极易被扭曲、遗失。 在 2015 年之前,神经网络的深度普遍停留在 20 到 30 层之间。随着层数的加深,模型表现反而下降,这被称为“退化现象”。其根本原因包括梯度消失、特征偏移和表示不稳定等训练问题。正是在这种背景下,一篇划时代的论文应运而生——《Deep Residual Learning for Image Recognition》。这项由微软研究院的何恺明(Kaiming He)、张祥雨(Xiangyu Zhang)、任少卿(Shaoqing Ren)和孙剑(Jian Sun)等人提出的研究,首次提出了“残差连接”(Residual Connection)机制,从根本上解决了深层网络难以训练的问题。 这项创新的直接成果就是 ResNet 系列模型(如 ResNet-50、ResNet-101、ResNet-152),它们在 ImageNet 图像识别任务中取得了突破性成绩,使得“百层网络”从概念走向现实。更重要的是,这种结构范式迅速影响了整个深度学习领域,成为后续许多关键模型的结构基础,包括 Transformer 的多层堆叠编码器-解码器架构,以及基于它演化出的 BERT、GPT 等大型语言模型,乃至视觉领域的 Vision Transformer(ViT)。 残差连接的核心思想很简单:不是让每一层都重新构造全部表达,而是在前一层的基础上进行“增量式”改进,即 y = x + F(x)。这种结构允许信息贯通整个网络,不被中间层彻底覆盖或干扰。而在 Transformer 中,这一结构通常与 LayerNorm(层归一化)结合使用,形成经典的 “Add & Norm” 模式。这种设计不仅保证了信息的连续性,也通过归一化机制维持了每一层的稳定分布,使得深度语言模型得以安全地堆叠数十至上百层。 从这个角度来看,残差连接与 LayerNorm 的搭配,不仅仅是一种技术细节,而是支撑整个现代 AI 模型深度化的基础设施。正是这项创新,让深度学习从“浅层表达”真正走向了“结构认知”,从“性能探索”进入了“工业落地”的新阶段。 残差连接(Residual Connection)。我对它的总结是这样的: “在层层递进的过程中,不让一层完全推翻上一层。” 就像“传话游戏”,你不能在传话的过程中擅自篡改上一位所说的内容,只能在其基础上尽量讲得更清楚、更准确。深度网络中的每一层信息处理,其实也面临类似的挑战——如果没有良好的机制约束,信息在多层变换中很容易被扭曲,导致语义丢失。 残差连接的核心作用,就是一种信息保护机制。如果没有它,每一层都必须从零开始重新构建表达,既容易丢失已有语义结构(比如词义、句法、语境),又让每一层都背负“完整表达”的沉重负担。而引入残差连接后,每一层的任务就轻松多了,它只需要在前一层的基础上做一些“小修小补”,相当于打个“补丁”,而不是从头重写整段逻辑。就像写论文时,你不会每次重写全部内容,而是基于已有版本不断微调、精炼。 我们可以通过一个简单的例子来直观理解残差计算。设一个三维输入向量: x = [1.0, 2.0, 3.0] 我们设计一个残差函数 F(x),例如通过线性变换 + 偏置 + ReLU 非线性激活构建: W = [ [0.5, 0.0, 0.0], [0.0, 0.5, 0.0], [0.0, 0.0, 0.5] ] b = [0.1, -0.1, 0.2] 计算过程如下: Wx + b = [0.6, 0.9, 1.7] F(x) = ReLU([0.6, 0.9, 1.7]) = [0.6, 0.9, 1.7] 最终通过残差相加得到: x + F(x) = [1.6, 2.9, 4.7] 这一步最重要的理念是:原始输入 x没有被丢掉,而是与新计算的增量 F(x) 结合在一起,作为下一层的输入。这不仅保留了前面层的结构,还允许网络在已有表达基础上逐步增强,避免信息被误处理或彻底重写。 你可能会说:这不就是简单的数值相加吗?是的,数学上很简单,但背后的思想却深刻。为了让这样的加法不会导致数值不稳定或分布偏移,Transformer 中在残差相加后会紧跟一个 LayerNorm 操作。你可以把它类比为“归一化”,就像学过概率统计的人熟悉的 normalization 过程:将输出重新压缩到一个合理的分布范围内,保持数值稳定,利于训练。 所以,残差连接 + LayerNorm,就是深度网络中“传话不走样”的保障机制——既保留原意,又允许优化;既递进增强,又不过度扰动。这一结构几乎是所有现代深层模型(包括 GPT、BERT、ViT 等)的基础之一。 (9/n)
分享
评论 0
0
Susan STEM
2个月前
有一部分人的幸运,是在 2005 到 2019 年之间,恰好在高考志愿表上填了“计算机”三个字。 那也许是一种随手而填的选择——早期大部分人的专业都是乱填的。但就是这一次“误打误撞”,在互联网狂飙突进的时代背景下,让他们搭上了人类历史上最庞大的产业腾飞列车。他们从默默无闻的技术工种,迅速跃升为金领阶层,取代了上一代人眼中的“外企买办”“法务白领”“咨询金童”。 正如刘慈欣在《诗云》中所言,他以冰冷克制的语言,将IT劳动者比作高等文明机器中的器件、冷却装置与供能者——不是神祇,也不是牧羊人,而是可随时替换的电容、电阻。 他们运行系统,却无法控制系统;他们执行算法,却从不被邀请去编写“规则本身”。 这正是数字文明中的真实隐喻:劳动者未能获得结构控制权,仅仅成为算法逻辑中的“函数调用”——可被压缩、可被替代、无需留名。 刘慈欣早做出神预言: “他们建造的智能,反过来关闭了他们的工位; 智能不再需要指令,它学习如何制造指令。”
分享
评论 0
0
Susan STEM
2个月前
科幻最大的问题,是它被当成小说来看。 尤其在我们的语境中,科幻往往被当作“故事”——一种编造、虚构的消遣。用我妈的西南方言说,就是“聊斋”,听着玩的。但其实,从我年少痴迷科幻魔幻,到中年重新审视,我越来越确信:科幻,是最适合进行“认知扩展”的问题域。 以《基地》《沙丘》《三体》为例,包括特德·姜的短篇,它们不仅仅是故事,更是科技思想实验的集合体。赫胥黎的《美丽新世界》提出的社会设想,我们正在一步步逼近。刘慈欣的宇宙尺度推演,本质是对文明进程的逻辑结构测试。还有前阵子我推荐的《盲视》,谁在大模型之前,想象过那样一种非人类、非意识但高智能的存在?这就是预言性的结构洞察。 再看魔幻小说。它并非幼稚幻想,而是对西方文明语言、信仰与文化底层的结构封装。你以为是故事,其实是另一个“圣经”系统。像《哈利·波特》《魔戒》这样的文本,它们隐藏了前工业时代无数现实细节。托尔金的创世神话,从伊露维塔写起,构造了一个完整的语言世界,其结构之精密堪比神学系统。魔幻小说中所谓“神权”与“神谕”,其实正是语言的早期调度系统,是没有文字时代的人类“结构权柄”的映射。 所以,科幻和魔幻小说,不是逃避现实,而是提前面对现实。只不过我们惯于用“小说”这个标签,把它们的结构预警、文明思想、认知提案给降解成了娱乐。 理科生教育里最大的问题🙋可能就是小说看少了。
分享
评论 0
0
Susan STEM
2个月前
这是一个非常值得深入讨论的问题:提示词是否可以被模仿?我的判断是——不能。理由在于,提示词只是表面现象,它背后真正起作用的是一个人长期构建的认知结构系统。如果一个人将自己的工作、生活,甚至整个思维生态都建立在与AI互动的基础上,那么他使用的提示词其实只是这一整套系统的语言接口,是深层认知模型的压缩投影。 表面上看,提示词只是几句话,但它实际上承载着意图结构、知识组织、路径调度与反馈机制等多个层级的智能。它不是“写出来”的,而是“演化出来”的结果。有效的提示词就像命令行中的一条参数指令,虽然简短,却调用了背后一整套工具链。而这条指令若脱离原本的系统架构,在别人手中往往无法复现出同样的效果。 更重要的是,提示词往往是一个人的“结构人格”在语言中的映射。它体现了他独有的知识地图、任务模型和智能反馈机制。模仿这种提示词,就像抄写一个复杂程序的函数调用而不理解其依赖关系和系统架构,结果要么无法运行,要么产生错乱输出。因此,与其模仿提示词,不如构建自己的结构认知系统,培养与AI高效协作的能力。
分享
评论 0
0
Susan STEM
2个月前
和我的想法差不多,我的剧毒公式是:凡这个业务和职位的工作核心是将非格式化信息转化为格式化信息的白领工作,都会被替代。就算这个工作涉及协调人际关系,但是这种人际关系本来就是建立在这份任务需要多人完成的基础上的。Turning unstructured data into structured data. -会计学、财务管理: 将被智能财务系统大规模替代。 基本只剩下输入端,中专毕业就能做了。而且报表高度定制化,输出极专业。这个行业我还比较了解。 -金融学(普通院校): 你学到的所有量化模型和分析技巧,AI做得比你好一万倍。人机共决策量化模型一定会出来。 -新闻学、广告学、传播学:* AIGC(AI生成内容)将淹没这些行业。 这个行业我不了解。 -法学(非诉方向): 合同审查、法律研究等工作将被AI法律助手高效完成。 是,而且法律智能体,针对各行业的法律智能体,甚至个人向的法律顾问智能体会变得触手可及。 -工商管理、市场营销、人力资源管理: 充满了大量可被AI优化的流程化工作。 不需要用专业来学。 -翻译: 不用解释。 非常了解这个行业,完全同意。可以提高个人素质,但是无法变现。 -计算机科学(普通院校): 这是最大的陷阱。你会成为“代码校验员”,与全球海量的、有AI辅助的低薪工程师竞争,你的“认知”毫无稀缺性可言。嗯,计算机成为通识。但是同样有一部分人会变成超级个体程序员。两极分化。
#人工智能
#自动化
#就业趋势
#白领工作
分享
评论 0
0
Susan STEM
2个月前
现在的年轻人可能已经无法想象:有人能把阅读几千字高密度文字,当作刷短视频一样轻松。这是一种被系统训练出来的能力。 过去顶尖985的英美文学系,不知道现在还是否保留着那种训练方式。老师布置任务:200页全英文原著,明早Quiz,题目全是书里翻不到的,只能靠你大脑里的结构模型。这才是真正的“刷书如刷视频”。 以前高校的湖南老板复印机都冒烟。 现在文科无用论甚嚣尘上。可能真的拿到文凭,这种认知建模能力也可能从未被真正建立过。
#阅读
#短视频
#高等教育
#英美文学
#认知训练
#文科无用论
分享
评论 0
0
上一页
1
2
3
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞