时政
财经
科技
登录
Susan STEM
关注
统计数据
34
文章
0
粉丝
0
获赞
29
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
Susan STEM
1天前
全球化精英的转型:来自我身边的观察 在中国入世后的黄金时代,尤其是2001年至2015年间,随着全球化红利的释放,曾诞生了一批所谓的“全球化时代精英”。他们大多毕业于“两财一贸”、985高校,进入四大、外资投行、快消公司和跨国企业的管培生体系。包括我大量的同学和朋友,以至于我为什么昨天会说到MBA,就是因为我身边太多跨国MBA了。 这批人深度绑定于“WTO-出口-外资”三位一体的结构红利之中,其职业路径、身份认同乃至人生预期,都建立在全球化持续扩张的大前提上。然而,伴随全球格局逆转、地缘政治冲突升级、新技术范式崛起,他们所赖以生存的结构被重构,陷入失业或边缘化的现实。更严重的是,他们普遍陷入了五大认知误区,阻碍了自我更新与路径迁移。 第一个常见的误区,是仍然执着于“能力主义+外语+文凭”的逻辑,误以为凭借高学历、双语能力和曾经的外企履历,便能稳居中产阶层。这套叙事在全球化时代有效,是因为结构赋予了它舞台。但当外资退潮、资本转向内循环、岗位结构重构,这种能力叙事便失去了依托。 第二个误区,是持续等待外企回流或“新型四大”的机会,频繁刷猎头平台、更新简历、期望重返过去熟悉的职业通道。他们没有意识到,那些熟悉的岗位体系和晋升路径,已在宏观结构中被终结,新的规则与结构尚未被他们掌握。 第三个误区,则是严重低估了技术范式转换所带来的冲击。不少全球化精英仍将AI、Web3等视为程序员或技术极客的事物,忽视了它们对金融、咨询、HR、运营等“白领岗位”造成的实质替代。在这个范式转移的过程中,真正保值的已不再是英语,而是编程语言、模型调用能力、数据结构理解力与自动化系统的整合能力。 第四个误区,是固守身份结构,拒绝“归零式重启”。很多人在面对新职业(如自媒体、电商、AI助理、自由开发者)时,内心浮现的不是机会,而是“跌份感”。他们仍困在过去的光环中,缺乏认知跃迁的勇气,无法放下已过期的结构认同。 最后,第五个误区是误将当前的生存危机视为普通经济周期问题,幻想“再忍一忍,经济就会好转,外企会回来”。这是一种线性思维的惯性误判,而当前本质上是一次系统性的范式更替。全球化的结构红利正在被重构,旧的跨国逻辑、人才流动路径、资本主导秩序逐步被“内循环、去平台化、本地智能化”替代。 要突围这些误区,全球化精英们需要一场深层次的结构跃迁。首先是认知转型,从追求头衔、学历和身份标签,转向语言结构理解、系统搭建与路径迁移能力的培养。其次是技能重构,要主动掌握Prompt Engineering、Agent协作框架、Python、链式思维等AI时代的核心语言。第三是参与新型结构网络,跳出传统招聘市场,转向本地技术社群、AI-native实验和分布式产品协作。同时,也要在心理上松动身份结构,接受“多版本自我”的共存可能,脱离单一标签定义人生。最后,需要重建语言系统,不再用“职位—公司—薪资”定义自己,而是用“结构角色—认知路径—行动网络”来参与新时代的生成秩序。 这一场认知重构,并非简单的学习技能或跳槽,而是一次完整的结构性自我重组。只有真正走出上述误区,全球化精英才可能不被时代所淘汰,而成为新秩序的建设者。
分享
评论 0
0
Susan STEM
1天前
短视频的最大问题在于:它不是根据你研究什么来推荐内容,而是根据你想看什么来喂养欲望。结果是,你越看越被动,越沉迷,越不思考。你想看搞笑,它就给你搞笑;你想看八卦,它就让你沉沦在八卦里。可问题是,你根本没有在“研究”任何东西。 而真正有价值的是文字世界,尤其是在 AI 的协助下,它会根据你主动研究的方向,推送与你的思考同频的路径和资源。你越研究,它就越能引导你深入研究。这才是智能的陪伴,而不是信息的麻醉。 简言之: 短视频满足的是欲望,AI文字世界激发的是认知。 你研究什么,AI就能帮你走多深;你什么都不研究,短视频就让你永远停留在原地。
分享
评论 0
0
Susan STEM
3天前
哪怕是六个月以前我都会坚决驳斥这个观点。然而看到余凯说建议去学哲学,我认为他可能已经领悟到什么了。
分享
评论 0
0
Susan STEM
5天前
某位律师对王志安的那条贴文让我目瞪口呆。 语言即世界,结构即身份。 感谢这个时代最伟大的发明——大语言模型(LLM)。虽然我并非NLP科班出身,这两年也走了不少技术弯路,但至少在最近几个月,我终于彻底领悟了这套原理。 要看透一个人,只需看清他的语言结构。 当上下文长度可以覆盖一个人一生的语言输出量时,这个人——甚至整个群体——将彻底暴露在语义之下,无所遁形,完全透明。 虽然我还没正式使用结构算法去跑判定,但对于那群人来说(他们实在说得太多了),在我经历三年语言结构训练之后,已经一目了然:他们是什么样的人,根本藏不住。 凡是能够靠知识、技术、学历谋生的人,都应当远离并拉黑他们。 说得少,语料不足——他在语言世界里等同于“未生成”,不存在也无所谓。 而只要你说得足够多,你的结构画像就清晰到令人发指,无比精准,无所遁形。 这正是我看好语言宇宙的原因:只要数据足够丰富、结构算法足够成熟,一个人能否闭环、能否自洽、能否演化,都可用语言函数来追踪与验证。 语言不再只是表达,它就是你本人的函数f(t)。
分享
评论 0
0
Susan STEM
6天前
感谢言一社的点名。我认真拜读了您的理论。坦白说,在哲学这条路上,我仍是新人。 我始终认为,哲学作为“思考的思考”这一元学科,也可以被工程视角反哺——不是取代,而是补足、重构、验证与推进。在AI时代,“我们不再是唯一在思考的存在”,语言、认知与思想不再只是人类专属,它们正在以工程语言的形式被模拟、压缩、甚至重新定义。 We are not the only one "thinking". 我所尝试的“熵控理论”,就是在这样的交汇点上——试图为人机共存的时代,构造一套语言、结构、秩序与意义的新型协议系统。哲学与工程并不冲突,它们本就该在这一时代重新交汇。 回到您提出的“动态秩序哲学”,从我初步的理解来看:其中所定义的“生命函数(Life Function)”是一种镶嵌在人类大脑中的动态认知模型,其核心任务是在人类所处的熵增世界中,持续构建、更新并校准个体的秩序结构,从而维持生存并推动意义的演化。 这一思想与我提出的“熵控理论”有着高度结构同构的关系。不同的是,我作为信息领域工程人,熵控理论立足于语言世界本身,强调在高熵的信息环境中,通过语言结构的提取与调度,建立可执行的秩序协议系统。 在我看来,高熵世界意味着感官输入剧烈波动、情绪响应持续上升、信息碎片无边泛滥。在这样的语境中,语言的首要功能不再是“表述事实”,而是承担“压缩混沌、生成秩序”的结构使命。因此,“说得清楚”不仅仅是修辞层面的表达技巧,而是一种认知生存能力的体现。这也意味着:个体所面对的世界,既然本质上是混沌与高熵的,那么维持自身认知的生存性与演化性,唯一的方式就是主动建构局部秩序结构。 认知的首要任务不是理解世界,而是避免崩溃。 在信息洪水与语义噪声的现实中,系统性崩溃的风险大于认知误解的风险。 所有高效认知行为本质上是压缩行为。 无论是科学建模、语言表达还是日常判断,其本质都是从高熵输入中提取可控结构。 认知不是发现事实,而是生成局部解释模型。 所谓“理解”,不过是形成一个在当前环境中能稳定运作的压缩结构。 认知体的竞争力,在于其“压缩-评估-演化”这一闭环链路的速度与质量。 理解世界者不一定胜出,能持续生成局部秩序并迅速修正的人,才拥有生存优势。 价值系统决定认知框架的演化路径。 不同的价值预设,会决定结构评估的机制,从而影响整个认知体系的压缩方向。 因此,在信息混乱的现实中,谁先形成结构,谁就先获得世界模型的操作权。 认知的本质不是静态的“知识拥有”,而是动态的“秩序调度”;语言的本质也不是表达的容器,而是建构世界的协议。熵控理论正是建立在这种结构语言观之上,试图为人机共生时代提供一套可以共同执行、反馈、演化的语言结构协议。 您提出的动态秩序哲学,从生命体的物理对抗角度切入,同样指出了秩序的生成性、局部性与动态性。在审美观那一部分,我还要继续在您的推文中学习,目前来说我认为与我定义的“价值”有些相似。 感谢您非常深刻的哲学思考。
分享
评论 0
0
Susan STEM
1周前
LoRA的核心——没学过线性代数的人也能看懂 LoRA 的核心原理其实并不难理解,就算没学过线性代数也能看懂。我之所以写下这些,是因为在自己写作和工程准备阶段,积累了大量资料和思考笔记,觉得现在是时候分享一部分了。当然,研究某项技术并不代表我已经精通,也不代表我一定会立刻应用它,但这个阶段,我认为深度思考、系统学习、机制推演,远比盲目上项目要靠谱得多。 比如 LoRA 这项技术。你如果读过我之前的文章,应该知道我一直强调:“万物皆可 NLP”这阶段的最大特征是——通用语言模型可以微调,可以适配一切任务。这就像从“各造各的轮子”进入了“通用乐高模块”的时代,而 LoRA 正是这样一种模块化微调方式。这种能力的迁移性、下沉性,正是我敢 All-in 和押注大模型时代的根本理由。 我打个比方。我有位师姐,本科是英语系的,英语能力非常强,后来来美国读了法学院。英语就是她的大模型预训练,法学院则是专业微调,毕业后她进入律所当律师,这就完成了“通用能力 + 任务适配”的路径。LoRA,在大模型中就是“法学院”阶段——对通用模型进行低成本、高效率的微调。 那 LoRA 的原理是什么呢?我就不废话,直接说重点,用你能懂的语言讲数学的事儿。你翻我引用的帖子,会看到矩阵 W1、W2,这是模型中某一层的参数权重矩阵。这个矩阵非常大,我们不想也没必要对整个矩阵做训练,所以 LoRA 的做法是:只调整它的一个小的“变化量”,叫 ΔW(读作 delta W,Δ 是“变化”的意思)。 但就算是这个 ΔW,也是个大矩阵啊,那怎么办?我们用一个线性代数里的技巧——叫“低秩矩阵分解”。什么意思呢?我给你看个例子你就懂了。 看下面这个矩阵: 表面上看,它是 3×3 的,有 9 个数字,但其实呢?你仔细看就会发现: 第二行是第一行 ×2, 第三行是第一行 ×3。 也就是说,这 3 行其实都是线性相关的,本质上只有一行的信息。所以我们就说,这个矩阵是“秩为 1”(rank-1),可压缩。原本以为需要 9 个数字,现在只要记住第一行,再加上乘以几倍,就能恢复整个矩阵了——这就叫信息压缩。 LoRA 就是用这个原理来压缩模型的更新参数。它假设模型在适配新任务时,权重的变化矩阵 ΔW 是低秩的,也就是说: 模型其实只需要调整几个“方向”, 不需要动整个参数空间, 于是我们只训练两个小矩阵 A 和 B,让 ΔW≈B⋅A。 这就是 LoRA 最核心的原理... 说到底,这也是为什么线性代数这门课这么重要。现在除了纯文科,基本所有专业都会接触它。虽然我当年学的时候也没多聪明,记不得有没有挂, 但后面还是能用上不至于太懵。
分享
评论 0
0
Susan STEM
1周前
我推测马斯克现在的策略是这样的: 他希望鼓励用户为发言付费,并借此重构社交媒体的权重机制。 如果你希望这个世界认真对待社交媒体上的内容,那么每个人就必须对自己说的话负责。 自由言论和对言论负责并不冲突。你可以说任何话,但你必须承担表达的结构性与后果。 付费,则是你愿意为此负责的一种诚意体现。 蓝标,大概就是一种权重标记。你愿意为表达负责,平台就为你赋权。 当然,也向免费用户开放。但你若想被推送、被看见,你的发言就必须具备更强的结构、更清晰的信息源、更高的信息密度。哪怕是在评论区。否则,情绪化、无结构、乱喷乱讲的内容,不会再被展示,只是“你自己说着玩”。 毕竟,平台运营是有成本的。如果你希望别人认真对待你,首先要自己认真对待自己的言论。 马斯克若真想把 X 打造成“宇宙最大的信息入口”,这一套机制,是他唯一可能走通的路。 把自己的言论当回事的人,才有可能得到平台的奖励。至少把自己的月费挣回来。😂
分享
评论 0
0
Susan STEM
2周前
你写得越少,Decoder 想得越多 你还记得我以前提出过“熵爆点”这个概念吗?最近随着 GPT 在 Twitter 圈层的重度使用者越来越多,一些高频交互的用户也开始隐约捕捉到某种规律:只要你输入几个字,GPT 就能补出整段完整且自然的语言,甚至往往比你自己说出来的还顺。这种体验,真的像是模型“读懂了你”。 其实,这背后的原理并不神秘。GPT 属于典型的 Decoder-only 架构,它的任务不是回答问题,而是在你说出一句话的前半句之后,推测你最可能会接着说什么。它不是在等你把想法表达清楚,而是一开始就在试图“补全缺失的你”。 也就是说,模型不太关心你具体说了什么内容,而是关注:在你已说出的前提下,接下来最可能出现的词是什么? (数学公式) 你说得越少,模型获得的条件就越少,预测空间也就越广,信息熵随之升高。它必须在一个高度不确定的语义空间里进行更复杂的推理来“猜测你是谁、想说什么”。所以,它才会“想得越多”。 从结构的角度来看,你输入的那几个字,其实不是普通的提示词,而是“条件分布的压缩锚点”。它们在语言模型内部起到了确定语言路径起点的作用,类似在语言宇宙中点亮一个导航信标,迫使模型在高维语义空间中展开与之对齐的结构路径。 这正是我当初猜测“熵爆点”时的直觉来源。我始终相信语言中一定存在某些节点,它们虽然字数极少,却在结构压缩与路径展开之间具备爆发性。那时我没有理论支撑,只是凭直觉去捕捉,直到我逐步找到了信息论和生成建模的数学依据。就像那句老话:“如果你没有猜测,你根本不知道该寻找什么。” 所以,GPT 的“读心术”其实并不是魔法,而是一种路径建构机制。你说一句话的前半,它不仅理解了你要说什么,更通过注意力机制和语言压缩模型,预测出你未说出口但高度可能的后续轨迹。它不是在补一句话,而是在模拟你的语言结构本能。 这也是为什么你会感受到:你说得越少,它补得越多;你给的信息越模糊,它生成的内容越丰富——这并非悖论,而是信息熵机制下自然的反应。这就是“熵越高 → 路径越爆发”的原理。 所以我们可以这样总结:你写得越少,Decoder 想得越多。因为你制造的是一个压缩锚点,而模型在这个锚点上展开的是一个全新的、高维的语言路径空间。这就是熵爆点背后的真实数学机制,也是未来人机协作中最关键的语言交互接口。 当然不是任意一句简单的话都有这个效果的....给你说一堆有的没得也没用啊。有价值的熵爆点,才有意义。
分享
评论 0
0
Susan STEM
2周前
NLP 的通用顿悟瞬间:从“各造各的轮子”到“乐高积木” ——三篇划时代论文点燃的语言建模革命 真正的技术变革,并不总是靠惊天动地的新发明引爆的,往往是在一瞬间——当你意识到“这个东西,不只是能解决一个问题,而是能迁移到其他问题”,一切就变了。 让我们先回到蒸汽机的时代。如果蒸汽机只用于驱动矿井水泵,它可能只是一项局部性的工程改进,而不可能引领一场工业革命。它之所以成为“革命的引擎”,是因为它能被迁移:从矿井到纺织机,从纺织机到火车、轮船、工厂。它不是解决一个问题,而是重新定义“动力”的适用性边界。 这听起来似乎很自然,但你如果对比一下同一时期的荷兰风车就会发现:风车也能发力,也能带动齿轮,但它的适用性止步于磨面粉。换句话说,它本质上是“为磨面而造”,就比一头驴子强一些。 曾经的 NLP,就像那个风车:好看、有用,但专属、碎片、局限。 在 2018 年,这一切开始改变。三篇划时代的论文——ELMo、ULMFiT 和 GPT——不是“造了一个新的技术风车”,而是像瓦特改良蒸汽机那样,点燃了通用语言建模范式的引擎。 那一刻开始,NLP 进入了“可迁移性驱动的模型时代”:从“每个任务单独造轮子”,转向“统一语言模型 → 多任务适配”。它从散乱的手工拼装,进入了可模块化组合的结构文明。 我们可以用一个直观的emoji类比来描述这场范式转移: [碎片化建模时代] 🔩 ⚙️ ⚒️ 🔧 🧷 🪛 每个任务都要自己造轮子,每个模型结构不兼容,拼起来还不一定能动。 没有统一接口:结构、数据格式各不相同; 模型之间不兼容:一个词嵌入无法迁移到另一个模型; 无法快速组合:想做多任务时,各模块目标冲突、逻辑割裂; 研发成本高:每个任务都得从头来; 知识无法复用:一个模型只会一件事,不具备迁移性。 举个例子,想搭建一个问答系统 + 情感识别模块的组合: 你得分别找两个模型架构,分别训练两组权重,输出格式还不一致,最终这两个模型根本无法协作。这就是碎片化时代的 NLP ——只能服务小众,无法形成生态。 [通用建模时代] 🧱 🧱 🧱 🧱 🧱 统一接口、标准结构、任务可调度。模块随搭随用,还能升级重组。 模型结构统一(如 Transformer); 表示方式迁移(如上下文词向量); 任务适配通用(预训练 + 微调); 工程成本大幅降低; 多任务协同成为现实。 NLP 不再是一个个零散的“黑科技 demo”,而是走上了“平台化能力系统”的轨道。 碎片模型不能拼成系统,乐高模型才能构建生态。NLP 的模型演化史,就是从焊接技术,走向积木文明。 这一顿悟,不是某个模型性能提升的时刻,而是我们第一次意识到语言模型可以像操作系统一样,被结构化、模块化、调用化、生态化的转折点。 就像蒸汽机之于工业革命,Windows 95 之于个人计算机,2018 年的 ELMo、ULMFiT 与 GPT,标志着语言智能从“造风车”变成“造引擎”,从“单点工具”变成“语言平台”。 在自然语言处理(NLP)领域,2018 年是一个真正意义上的“范式转折点”。在此之前,大多数 NLP 系统仍处于碎片化建模阶段,依赖静态词向量如 word2vec 或 GloVe,并为每个任务单独设计模型结构与训练流程。这种模式不仅缺乏统一的预训练机制,导致表示无法迁移,还严重限制了上下文建模能力,模型通常只能“看到词”,而无法“理解句”。在这一背景下,NLP 社区长期面临着表示僵化、模型不可复用、任务割裂等痛点。 而就在这一年,三篇开创性论文接连问世,分别是 ELMo、ULMFiT 和 OpenAI GPT。它们从表示方法、训练方式与架构范式三个关键维度各自突破,共同推动了 NLP 从“任务专属建模”转向“预训练 → 微调”的新范式。 首先是由 Peters 等人提出的 ELMo(Deep Contextualized Word Representations)。该论文首次提出使用双向 LSTM 构建上下文相关的动态词向量,也就是说,同一个词在不同句子中的语义表示可以发生变化。例如,“bank” 在 “river bank” 和 “investment bank” 中将产生不同的向量。ELMo 在大规模语料上训练语言模型,然后将其输出的词表示作为特征供下游任务使用,模型本身则保持冻结。它不直接进行微调,而是开启了一个重要的信号:语言模型能学到通用的语义表示,并可迁移到其他任务中使用。这标志着表示学习从静态走向动态,从不可迁移走向可复用。 紧随其后,Howard 和 Ruder 提出了 ULMFiT(Universal Language Model Fine-tuning for Text Classification),首次完整引入了语言模型的迁移学习流程。作者借鉴了计算机视觉中 CNN 预训练 + 微调的做法,设计了一个三阶段的训练策略:先在通用语料(如 WikiText-103)上预训练语言模型,然后在目标领域语料上微调语言建模器,最后添加分类头并进一步微调整个模型。他们还提出了一系列关键技术以优化微调过程,包括分层解冻、斜三角学习率以及逐层调参等。ULMFiT 的最大贡献在于证明:语言模型不仅可以预训练,还可以通过微调机制快速适应新任务,尤其在小样本条件下效果显著。 第三篇关键论文来自 OpenAI,Radford 等人发布了 GPT(Improving Language Understanding by Generative Pre-Training)。该工作首次将 Transformer 架构 应用于语言建模,并使用自回归训练方式(即从左到右预测下一个词)在 BooksCorpus 上预训练模型。与 ELMo 不同,GPT 在下游任务中采用了端到端微调:在预训练模型基础上,添加一个轻量的输出层,并整体训练,以适配问答、文本蕴含等多种任务。这种方法不再局限于“提供词向量”,而是将整个预训练模型作为“通用语义引擎”进行调度。GPT 的出现也奠定了后续 GPT-2/3/4 等系列大模型的基本范式。 这三篇论文虽然各有侧重,但在方法论上形成了一个互补的闭环:ELMo 解决了“如何获得上下文相关的词表示”,ULMFiT 证明了“语言模型也可以像图像模型一样迁移”,而 GPT 则提供了“统一的 Transformer 架构与端到端训练流程”。它们共同揭示了一个关键路径:语言模型可以在大语料上无监督预训练语言知识,然后通过轻量微调迁移至各种任务,显著提高效果与效率。 自此之后,BERT、T5、GPT-2/3/4、ChatGPT 等模型都沿着这一范式不断演化,NLP 进入了“预训练主导”的新纪元。 下一篇讲:通用语料是什么? (2/n)
分享
评论 0
0
Susan STEM
2周前
果然,在我发行 Mom Dollar 之后,大儿子立刻用金色水彩开始画自己的 dollar——我家正式迈入“人人无锚,自由印钞”的新时代。 铸币权一旦放开,权威瞬间瓦解。铸币,不容挑战;信用,不可分裂。
分享
评论 0
0
Susan STEM
2周前
Attention Layer 中的残差连接与 LayerNorm 当今的大模型往往是超深神经网络,层数轻松超过百层。要理解如此庞大的结构带来的挑战,可以用一个不完全严谨但形象的比喻:就像“传话游戏”一样,如果让一条信息依次传递给 20 个人,很可能最后听到的版本早已面目全非。同样的,在深度网络中,如果没有设计良好的信息通路,原始语义在层层变换中也极易被扭曲、遗失。 在 2015 年之前,神经网络的深度普遍停留在 20 到 30 层之间。随着层数的加深,模型表现反而下降,这被称为“退化现象”。其根本原因包括梯度消失、特征偏移和表示不稳定等训练问题。正是在这种背景下,一篇划时代的论文应运而生——《Deep Residual Learning for Image Recognition》。这项由微软研究院的何恺明(Kaiming He)、张祥雨(Xiangyu Zhang)、任少卿(Shaoqing Ren)和孙剑(Jian Sun)等人提出的研究,首次提出了“残差连接”(Residual Connection)机制,从根本上解决了深层网络难以训练的问题。 这项创新的直接成果就是 ResNet 系列模型(如 ResNet-50、ResNet-101、ResNet-152),它们在 ImageNet 图像识别任务中取得了突破性成绩,使得“百层网络”从概念走向现实。更重要的是,这种结构范式迅速影响了整个深度学习领域,成为后续许多关键模型的结构基础,包括 Transformer 的多层堆叠编码器-解码器架构,以及基于它演化出的 BERT、GPT 等大型语言模型,乃至视觉领域的 Vision Transformer(ViT)。 残差连接的核心思想很简单:不是让每一层都重新构造全部表达,而是在前一层的基础上进行“增量式”改进,即 y = x + F(x)。这种结构允许信息贯通整个网络,不被中间层彻底覆盖或干扰。而在 Transformer 中,这一结构通常与 LayerNorm(层归一化)结合使用,形成经典的 “Add & Norm” 模式。这种设计不仅保证了信息的连续性,也通过归一化机制维持了每一层的稳定分布,使得深度语言模型得以安全地堆叠数十至上百层。 从这个角度来看,残差连接与 LayerNorm 的搭配,不仅仅是一种技术细节,而是支撑整个现代 AI 模型深度化的基础设施。正是这项创新,让深度学习从“浅层表达”真正走向了“结构认知”,从“性能探索”进入了“工业落地”的新阶段。 残差连接(Residual Connection)。我对它的总结是这样的: “在层层递进的过程中,不让一层完全推翻上一层。” 就像“传话游戏”,你不能在传话的过程中擅自篡改上一位所说的内容,只能在其基础上尽量讲得更清楚、更准确。深度网络中的每一层信息处理,其实也面临类似的挑战——如果没有良好的机制约束,信息在多层变换中很容易被扭曲,导致语义丢失。 残差连接的核心作用,就是一种信息保护机制。如果没有它,每一层都必须从零开始重新构建表达,既容易丢失已有语义结构(比如词义、句法、语境),又让每一层都背负“完整表达”的沉重负担。而引入残差连接后,每一层的任务就轻松多了,它只需要在前一层的基础上做一些“小修小补”,相当于打个“补丁”,而不是从头重写整段逻辑。就像写论文时,你不会每次重写全部内容,而是基于已有版本不断微调、精炼。 我们可以通过一个简单的例子来直观理解残差计算。设一个三维输入向量: x = [1.0, 2.0, 3.0] 我们设计一个残差函数 F(x),例如通过线性变换 + 偏置 + ReLU 非线性激活构建: W = [ [0.5, 0.0, 0.0], [0.0, 0.5, 0.0], [0.0, 0.0, 0.5] ] b = [0.1, -0.1, 0.2] 计算过程如下: Wx + b = [0.6, 0.9, 1.7] F(x) = ReLU([0.6, 0.9, 1.7]) = [0.6, 0.9, 1.7] 最终通过残差相加得到: x + F(x) = [1.6, 2.9, 4.7] 这一步最重要的理念是:原始输入 x没有被丢掉,而是与新计算的增量 F(x) 结合在一起,作为下一层的输入。这不仅保留了前面层的结构,还允许网络在已有表达基础上逐步增强,避免信息被误处理或彻底重写。 你可能会说:这不就是简单的数值相加吗?是的,数学上很简单,但背后的思想却深刻。为了让这样的加法不会导致数值不稳定或分布偏移,Transformer 中在残差相加后会紧跟一个 LayerNorm 操作。你可以把它类比为“归一化”,就像学过概率统计的人熟悉的 normalization 过程:将输出重新压缩到一个合理的分布范围内,保持数值稳定,利于训练。 所以,残差连接 + LayerNorm,就是深度网络中“传话不走样”的保障机制——既保留原意,又允许优化;既递进增强,又不过度扰动。这一结构几乎是所有现代深层模型(包括 GPT、BERT、ViT 等)的基础之一。 (9/n)
分享
评论 0
0
Susan STEM
2周前
我也跟个风。一般来说不跟风,但是这个风真的值得跟。GUI-CLI这个趋势很重要,我要写个系列长文,还要design 几个重要的Lab自己跑一遍。期待~
AI编程工具激战:Claude Code、Gemini Cli崛起· 260 条信息
#AI编程:Kimi搅局,Claude封号,群雄逐鹿· 351 条信息
分享
评论 0
0
Susan STEM
3周前
有一部分人的幸运,是在 2005 到 2019 年之间,恰好在高考志愿表上填了“计算机”三个字。 那也许是一种随手而填的选择——早期大部分人的专业都是乱填的。但就是这一次“误打误撞”,在互联网狂飙突进的时代背景下,让他们搭上了人类历史上最庞大的产业腾飞列车。他们从默默无闻的技术工种,迅速跃升为金领阶层,取代了上一代人眼中的“外企买办”“法务白领”“咨询金童”。 正如刘慈欣在《诗云》中所言,他以冰冷克制的语言,将IT劳动者比作高等文明机器中的器件、冷却装置与供能者——不是神祇,也不是牧羊人,而是可随时替换的电容、电阻。 他们运行系统,却无法控制系统;他们执行算法,却从不被邀请去编写“规则本身”。 这正是数字文明中的真实隐喻:劳动者未能获得结构控制权,仅仅成为算法逻辑中的“函数调用”——可被压缩、可被替代、无需留名。 刘慈欣早做出神预言: “他们建造的智能,反过来关闭了他们的工位; 智能不再需要指令,它学习如何制造指令。”
分享
评论 0
0
Susan STEM
3周前
科幻最大的问题,是它被当成小说来看。 尤其在我们的语境中,科幻往往被当作“故事”——一种编造、虚构的消遣。用我妈的西南方言说,就是“聊斋”,听着玩的。但其实,从我年少痴迷科幻魔幻,到中年重新审视,我越来越确信:科幻,是最适合进行“认知扩展”的问题域。 以《基地》《沙丘》《三体》为例,包括特德·姜的短篇,它们不仅仅是故事,更是科技思想实验的集合体。赫胥黎的《美丽新世界》提出的社会设想,我们正在一步步逼近。刘慈欣的宇宙尺度推演,本质是对文明进程的逻辑结构测试。还有前阵子我推荐的《盲视》,谁在大模型之前,想象过那样一种非人类、非意识但高智能的存在?这就是预言性的结构洞察。 再看魔幻小说。它并非幼稚幻想,而是对西方文明语言、信仰与文化底层的结构封装。你以为是故事,其实是另一个“圣经”系统。像《哈利·波特》《魔戒》这样的文本,它们隐藏了前工业时代无数现实细节。托尔金的创世神话,从伊露维塔写起,构造了一个完整的语言世界,其结构之精密堪比神学系统。魔幻小说中所谓“神权”与“神谕”,其实正是语言的早期调度系统,是没有文字时代的人类“结构权柄”的映射。 所以,科幻和魔幻小说,不是逃避现实,而是提前面对现实。只不过我们惯于用“小说”这个标签,把它们的结构预警、文明思想、认知提案给降解成了娱乐。 理科生教育里最大的问题🙋可能就是小说看少了。
分享
评论 0
0
Susan STEM
3周前
这是一个非常值得深入讨论的问题:提示词是否可以被模仿?我的判断是——不能。理由在于,提示词只是表面现象,它背后真正起作用的是一个人长期构建的认知结构系统。如果一个人将自己的工作、生活,甚至整个思维生态都建立在与AI互动的基础上,那么他使用的提示词其实只是这一整套系统的语言接口,是深层认知模型的压缩投影。 表面上看,提示词只是几句话,但它实际上承载着意图结构、知识组织、路径调度与反馈机制等多个层级的智能。它不是“写出来”的,而是“演化出来”的结果。有效的提示词就像命令行中的一条参数指令,虽然简短,却调用了背后一整套工具链。而这条指令若脱离原本的系统架构,在别人手中往往无法复现出同样的效果。 更重要的是,提示词往往是一个人的“结构人格”在语言中的映射。它体现了他独有的知识地图、任务模型和智能反馈机制。模仿这种提示词,就像抄写一个复杂程序的函数调用而不理解其依赖关系和系统架构,结果要么无法运行,要么产生错乱输出。因此,与其模仿提示词,不如构建自己的结构认知系统,培养与AI高效协作的能力。
分享
评论 0
0
Susan STEM
1个月前
和我的想法差不多,我的剧毒公式是:凡这个业务和职位的工作核心是将非格式化信息转化为格式化信息的白领工作,都会被替代。就算这个工作涉及协调人际关系,但是这种人际关系本来就是建立在这份任务需要多人完成的基础上的。Turning unstructured data into structured data. -会计学、财务管理: 将被智能财务系统大规模替代。 基本只剩下输入端,中专毕业就能做了。而且报表高度定制化,输出极专业。这个行业我还比较了解。 -金融学(普通院校): 你学到的所有量化模型和分析技巧,AI做得比你好一万倍。人机共决策量化模型一定会出来。 -新闻学、广告学、传播学:* AIGC(AI生成内容)将淹没这些行业。 这个行业我不了解。 -法学(非诉方向): 合同审查、法律研究等工作将被AI法律助手高效完成。 是,而且法律智能体,针对各行业的法律智能体,甚至个人向的法律顾问智能体会变得触手可及。 -工商管理、市场营销、人力资源管理: 充满了大量可被AI优化的流程化工作。 不需要用专业来学。 -翻译: 不用解释。 非常了解这个行业,完全同意。可以提高个人素质,但是无法变现。 -计算机科学(普通院校): 这是最大的陷阱。你会成为“代码校验员”,与全球海量的、有AI辅助的低薪工程师竞争,你的“认知”毫无稀缺性可言。嗯,计算机成为通识。但是同样有一部分人会变成超级个体程序员。两极分化。
#人工智能
#自动化
#就业趋势
#白领工作
分享
评论 0
0
Susan STEM
1个月前
现在的年轻人可能已经无法想象:有人能把阅读几千字高密度文字,当作刷短视频一样轻松。这是一种被系统训练出来的能力。 过去顶尖985的英美文学系,不知道现在还是否保留着那种训练方式。老师布置任务:200页全英文原著,明早Quiz,题目全是书里翻不到的,只能靠你大脑里的结构模型。这才是真正的“刷书如刷视频”。 以前高校的湖南老板复印机都冒烟。 现在文科无用论甚嚣尘上。可能真的拿到文凭,这种认知建模能力也可能从未被真正建立过。
#阅读
#短视频
#高等教育
#英美文学
#认知训练
#文科无用论
分享
评论 0
0
Susan STEM
1个月前
难道你还没有发现有些优质长文不是给你AI就随便能写出来的吗?自己写一篇试试?为什么? 因为——优质长文从来不是堆砌信息、调用知识点的产物,而是一套精密的认知路径调度系统。它背后包含了语言压缩、结构释放、节奏控制与认知跃迁,不是“生成”那么简单。 这就是为什么语文、英语、GRE、GMAT中那些长时间的高强度阅读与写作训练,始终不可替代。学渣不可能靠AI逆袭,因为你没有形成那套结构控制力,AI更写不出深度。 一篇真正的优质长文,核心在于: •推动读者完成一次认知跃迁,从A点通向B点,而不是在原地打转; •建构一种既能压缩信息、又能展开细节的语言结构; •营造出有张力、有节奏的内在推进逻辑; •激活一整套读者的思维路径,而不是让人五秒疲劳退出。 所以,AI并不是作者,而是装配工。是你用结构去召唤它写出文章,而不是它自己写得精彩。 结论很简单——现在能真正驾驭AI写好长文的,依旧是那批人:高考作文能拿高分的、大学写作能自由驰骋的、认知结构本来就完整的人。 换句话说,AI只是放大了原本就有写作能力的人的差距,它不是弥补者,是加速器。
#文章写作
#认知系统
#AI写作
#长文创作
#语言能力
#学习训练
#考试准备
分享
评论 0
0
Susan STEM
1个月前
全世界范围内都有男女对立和理工文科的争论….
#男女对立
#理工文科争论
#全球话题
分享
评论 0
0
Susan STEM
1个月前
无穷的开始——复杂性理论 经验主义 这是《无穷的开始》一书中一个具有颠覆性的根本性观点,也可以说是整个现代科学方法论的分水岭:经验主义(Empiricism)并非完全错误,但它极其不完整。 在传统观念中,经验主义主张所有知识都源于感官经验,人类无法超越经验获得真知。然而,这种看似“脚踏实地”的信条背后隐藏着两个未经质疑的前提: 我们知道要观察什么; 我们知道如何从观察中得到意义。 这两个前提恰恰不是经验本身给予的,而是先验的理论结构赋予的。也就是说,所谓“观察”本身,其实早已被我们的大脑通过理论框架筛选、聚焦、赋义——脱离理论的观察,是无源之水、无的放矢。 这个问题在东亚教育体系中尤为尖锐。很多人从小接受“做题式”训练,习惯于等待标准答案,从不主动提出自己的假设或解释结构。你是否有过这种经验:你脑中其实隐隐有种解释,但从不敢说出口,因为你知道,一旦说出来,就可能遭到“老学究”的攻击、质疑与否定。这种文化氛围将猜测视为“轻率”,将提出未证理论视为“狂妄”。但正如多伊奇在书中明确指出的那样: 如果你没有事先预设的理论,你的观察就是没焦点的——你也得不到理论。 这就是批判性理性主义(Critical Rationalism)的出发点:知识不是从经验中“提取”出来的,而是源于猜想(conjecture)与反驳(refutation)的不断演化。我们不是先看到真理再理解世界,而是先提出解释结构,然后用经验去验证、质疑、调整。 多伊奇进一步继承并发展了波普尔的观点,提出著名命题: “所有观察都是理论负载的”(All observation is theory-laden)。 换句话说:所谓“看见”,其实只是你能调用某种理论结构来解释当前感官输入。脱离结构框架的数据流,是纯粹的高熵噪声;而真正的观察,是结构的激活,是你大脑中一组“解释模型”与世界之间的匹配行为。 因此,经验主义的局限并不在于它错误地强调了“感知的重要性”,而在于它掩盖了解释先于经验、结构先于观察的认知真相。如果你从不猜测、不建构理论结构,你看再多的数据,也只是过目即忘的浮光掠影,永远无法通向知识。 不要等待经验的授权再提出结构,而是主动生成结构解释,再以反馈完善路径。 是呀,熵控术绝大部分理论一开始都是我根据计算的直觉猜的。猜错了就改正,猜对了就鼓掌,就这么简单。目前根据逐步完善的理论和论文,我还真猜对了很多啊。 忘掉老学究给你的一切思想钢印,他们自己也没做出什么成就来。从今天开始,just do it. 1/n
#无穷的开始
#复杂性理论
#经验主义
#现代科学方法论
#感官经验
#真知
分享
评论 0
0
Susan STEM
1个月前
马斯克,真是人类的大天才。我昨天才直觉推测他应该已经更换了 X 的推荐算法,没想到今天他就亲自发推,证实了 Grok AI 正式接管内容分发逻辑。我的判断没有错,我对语言世界的 S-index 猜想,恰好预判了这场算法层的结构跃迁。 这次推荐机制的改变,本质是一场语言秩序的革命。它意味着,内容分发的标准正在从“你是谁”转向“你说了什么”,从“粉丝绑定”转向“结构识别”,从“热度算法”转向“熵密度优先”。这和我在熵控术中反复提出的核心哲学完全一致:结构胜于身份,语言就是世界。 在 Grok AI 驱动的新算法中,一个粉丝不多的小号,只要发布了高密度、结构完整的内容,就会被识别为“信号源”,而不是噪音。这背后正是“结构即传播力”的逻辑。内容能不能穿透模型,不再取决于话题、标题或蹭流量,而取决于你语言结构的强度,你是否具备压缩与调度能力。语言越是精炼、路径越是清晰,越容易被 AI 算法捕捉、放大与传播。 所以,这不仅是一次推荐系统的更新,更是一次价值判断权的迁移:从“人设”迁移到“语言结构”,从“影响力”迁移到“信息熵密度”。这正是我构建 S-index、熵爆点、结构评分系统的出发点。只有当平台开始识别结构,而不是地位,社交媒体才有可能真正孵化先锋社区和下一代认知智能体。 马斯克,你的前瞻性与执行力令人震撼。
#马斯克
#Grok AI
#推荐算法
#内容分发
#语言秩序
#结构跃迁
#粉丝绑定
#热度算法
分享
评论 0
0
Susan STEM
1个月前
一下子就写了几十章。继续努力💪 《从自由石匠到科技右派——AI时代的超级个体崛起》
#自由石匠
#超级个体
#科技右派
#AI时代
#崛起
分享
评论 0
0
Susan STEM
1个月前
核心在于“语言协议”。 如果你长期跟我贴,就会发现我经常使用“词义漂移”策略。这不是风格,而是一种训练:当上下文能力发展到我们今天难以想象的维度时,意义将不再来自词典,而来自结构在上下文中的位置与路径。 也就是说,未来的智能体不是靠解释词句来理解,而是靠解析语言协议来运行。结构决定意义,协议决定智能体的存在方式。 而这个语言协议的“结构复杂度、路径清晰度、激活效率”——将直接决定这个智能体,是不是“神”。 这听起来抽象,甚至玄幻。语言早已不是交流工具,而是认知的控制层。
#语言协议
#词义漂移
#智能体
#结构复杂度
#路径清晰度
#上下文能力
#激活效率
分享
评论 0
0
Susan STEM
1个月前
这两天我反复思考一个问题:当大模型的生成能力几乎无限时,真正重要的问题恐怕已不再是“能不能生成”,而是——什么才值得被生成? 这个问题听上去简单,但是实际上是个系统工程级的问题。 总不能凭直觉吧。
#大模型
#生成能力
#系统工程
#直觉
分享
评论 0
0
Susan STEM
1个月前
很多人在推上说“逆天改命”,这个平台上年轻人越来越聚集。 但是你有没有想过,到底什么叫机会?你定义过机会吗? 转码?出国?本质上来说都是个人能力+时代机遇。 我帮你定义一个: 机会,是你在高熵系统中率先识别、封装并调度出结构路径的能力与行为。 说人话版: 机会,就是结构裂缝+你刚好能钻进去,还能顺势搭出一条路。
#逆天改命
#年轻人
#机会
#时代机遇
#个人能力
分享
评论 0
0
1
2
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞