𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞2025-06-06 13:17:49LLM是人类智能的信息论视角下的智能映射 如果从本质层面来看,LLM智能可以被理解为一种人类智能的信息论维度在计算系统中的可反映形式: •它不是模拟神经结构,而是模拟语言行为背后的预测编码结构; •它捕捉的是人类通过语言活动积累的行为概率空间,并在此基础上进行生成; •因此它是一种“符号-预测-行为”路径上的统计智能,而非具身智能或价值智能。 这意味着,LLM是语言中的智能残影(Echo of
楽蔭2025-06-05 18:22:30计算理论是多伊奇选定的四大理论之一。CS是一门基础科学。认为学CS是学写代码混饭吃,这种认知已经正在过时,所以基于此前提的讨论本来就是多余的。如果按照围绕学不学CS争论的逻辑,数学物理更不要碰了。 抱以这种狭窄的认知,在LLM飞速拓展个人认知能力与边界的现在,本来就选择了被淘汰的命运。学什么都没关系。 有人在开动所有最新最快最好的信息渠道高速学习以前令人望而生畏的基础学科,有人在争论“学它干嘛
楽蔭2025-06-04 11:20:09社媒上绝大多数的内容创作者都是加工和分销渠道而已。真正思考和产出新信息的人是极少的。LLM相当于厂家直连电商。那你这些N道贩子还有饭碗吗? 现在这个阶段,不抱着LLM快速增加认知、把时间都花在口水流量上的人,最后的结局不会好。
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞2025-06-04 09:34:12继笔者上一篇对于LLM的记忆与泛化解读之后,本篇文章将接着带你解剖这一“顿悟时刻”,探索从 grokking 到记忆反转的隐秘联结,揭示语言模型如何从存储个体数据走向生成结构世界。
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞2025-06-03 09:42:53什么是 Grokking?(原意来自俚语:通过神入作用而理解) “Grokking”是 OpenAI 在 2022 年提出的LLM的一个重要现象,指的是: 当模型在训练初期靠死记硬背(memorization)取得低训练损失,但测试误差很高;然后在极长时间训练后,模型突然学会了泛化结构,测试集准确率急剧上升。 这种现象最初在小模型上观察到,如:一个小 transformer 学习一个 mod