#transformer模型

1个月前

YouTube 最牛逼的AI频道（收藏级清单｜从0到进阶）想自学 AI，不想被信息噪音淹没？这 10 个频道够你用一年：从数学 → 代码 → 工程 → 研究 → 认知，闭环进阶。 1) 基础与直觉（数学底层） •频道：3Blue1Brown（7.6M）：把线代、微积分、神经网络讲成“能看见的直觉”。 •频道：StatQuest with Josh Starmer（1.48M）：统计/ML 概念一刀见血，考研/面试急救包。先看：线性代数本质；逻辑回归/随机森林的 StatQuest 版本。 2) 动手做模型（代码与实战） •频道：Andrej Karpathy（1.02M）：从零写 Transformer，LLM 训练心法。 •频道：Jeremy Howard / （138K）：实用优先，先拿结果再补理论。 •频道：Dave Ebbelaar（207K）：端到端项目、RAG、评测与部署。先看：从零实现 GPT；“Practical Deep Learning” 开篇课。 3) 课程与名校 •频道：Stanford Online（838K）：CS229/CS231n/LLM 系列公开课，体系化补课。先看：概率/最优化基础 + 视觉/LLM 最新课。 4) 工程与 MLOps •频道：Hamel Husain（11.9K）：RAG、评测、提示迭代、产品化工作流。先看：RAG 评估与数据迭代实战。 5) 研究访谈与长期趋势 •频道：Machine Learning Street Talk（199K）：硬核学术播客，论文作者亲讲。 •频道：Lex Fridman（4.8M）：与顶尖科学家/企业家长谈，做策略与认知升级。先看：Transformer/对齐/多模态主题长谈。 6) 通俗入门 + 公式背后的直觉 •频道：（181K）：概率、信息论、ML 直白拆解。先看：交叉熵、贝叶斯、马尔可夫直观解释。 7) 30 天学习路径（可直接照抄）第 1 周：3Blue1Brown + StatQuest（线代/概率/回归/树）第 2 周：开篇 + Karpathy“从零写 Transformer” 第 3 周：Dave 项目实操 + Hamel 的 RAG/评测第 4 周：Stanford 体系化补课；MLST/Lex 选 3 期做「研究笔记」规则：只做双速笔记（1 行直觉 + 1 行公式/代码）；每看 2 个视频，复刻 1 个小实验；每周 1 篇长谈/论文讲解拉高视野。 8) 为什么是这 10 个？ •覆盖“数学 → 代码 → 工程 → 研究 → 认知”的全链路。 •既能做出来，也清楚为什么能做出来。 •更新稳定、内容可形成可复用的知识底座。

#AI学习资源 #YouTube频道推荐 #深度学习进阶 #transformer模型 #机器学习路径

karminski-牙医

1个月前

Rust 当然可以重写一切，Rust 重写的 Transformer 模型来了！需要注意这个实现完全不依赖CUDA，而是底层仅使用了 ndarray （Rust 的科学计算库）来实现了矩阵运算。进而实现了全部的库。可以当作一个学习型项目看一看。项目地址：

#Rust #transformer模型 #ndarray #科学计算库 #学习型项目

1个月前

在 transformer 模型里，注意力权重很容易集中到序列开头的几个 token 上，尤其是第一个，这个现象叫做attention sink。之前很多论文的解释是，模型这么做是为了作为锚点。但这篇文章提出了一个另外的观点：这根本不是模型学会的策略，而是 causal transformer 的数学结构天然就会导致的结果。因为一旦引入 causal mask，attention 就相当于在一个有向无环图（DAG）上传播。信息和梯度都会自然往图的汇点（sink）聚集，而在这种结构下，汇点就是前几个 token。于是 attention mass 就越来越往前集中。

#transformer模型 #注意力权重 #attention sink #causal mask #有向无环图