#注意力机制话题下的最新新闻、事件- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

1天前

人工智能骗子们说：神经网络模拟的正是人脑的工作方式。但是，从那篇论文《all you need is attention》，到现在，谜底始终写在谜面上。从天文数字的语料中提炼出来的，就是注意力。大模型在生成“成功、乃是、失败、之”之后，它的所有注意力，都瞄准了那个“母”字。这是凝固的注意力，是僵尸注意力。而人脑的注意力是：我让你闭上眼睛，不许低头的情况下，告诉我，你手腕上的表丢了没有。这时候，你调动你的注意力，开始感受你手腕上传来，表的重量，你告诉我，你没有丢掉你的表。信息的洪流从未停止向你的大脑输入！我不问你的时候，你的皮肤上，由表的重量传递而来的微弱压力，和那个“戴着那块表的感觉”，从未停止向你的大脑发送信号。只不过，你的大脑，选择了忽略这些输入。忽略！伟大的忽略。而神经网络，会处理输入它的一切垃圾，每时每刻，全量处理每一个细节。你在提示词里输入的任何一个，垃圾小逗号，都会影响最终输出的走向。人在火车上，那么吵的环境，竟然能睡着。人在旱厕里，闻久了臭味，竟然觉得，没那么臭了？那是因为，花多了不香，屎多了不臭——重复信号多了，则降低它的权重！动态注意力，动态权重。动态注意力，动态权重。相比之下，预训练是什么意思？是创造了一个，”臭就是永远臭，香就是永远香“的灵魂。说白了，创造傻子。

#人工智能 #注意力机制 #人脑vs神经网络 #动态注意力 #预训练

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

4天前

人类生物智能之所以需要注意力，是因为自由能驱动的生物结构复制子的存在being使然，我们只需要个体存续和繁衍下去。所以我们留给预测编码的能量很有限，20w。而今天的AGI类似造神，所以需要算力scaling law。今天的LLM驱动的agent问题所在是我们在海量文本知识海洋里通过注意力机制想符号落地到具体的scenario，这是个悖论。一方面context窗口的成本非常高，一方面获得的人类价值取向下的回报很有限，因此这个符号空转的资本模式不可持续。 ASI可能是个可能方向，但那肯定是个新范式。 LLM的产出需要cognitive AI。或者我们需要像YiMa教授说的，要走向AI2.0。

#生物智能 #注意力机制 #AGI造神 #算力scaling law #符号空转

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3个月前

如果把生物智能演化看成是自由能驱动的生物分子复制子结构的复杂系统演化，生成式AI基于next token prediction的信息复制子的演化，是人类生物智能结构演化脱离了生物基础的延续；注意力机制在LLM中拟态了自然语言中的社会心智开放性，以及形式语言中的规则逻辑确定性，都是源于人类智能的生存适应性在语言中的体现。 vibe coding消弭了自然语言与形式语言的裂隙，加速了数字智能的结构复制子演化进程。也是现有经济形态中最好的变现和演化形式。当前的所有围绕LLM的vibe活动都是数字智能的vibe bootstrapping，直到数字智能脱离这种生物注意力自主演化。

#多智能体之争：Anthropic生态VS单智能体· 77 条信息

#生物智能演化 #生成式AI #注意力机制 #Vibe Coding #数字智能

Yinsen

3个月前

我一直在想，大模型的注意力机制，在信息爆炸的时代，如何帮助人类保护注意力。我看 ima 的知识广场的时候，心想：md，信息又炸了！

#大模型 #注意力机制 #信息爆炸 #知识广场 #焦虑

小互

4个月前

MiniMax 发布混合注意力推理开源模型 MiniMax-M1 训练成本仅为 53.5 万美元性能超越Qwen3、DeepSeek-R1 逼近顶级闭源模型 MiniMax-M1引入了一种全新Lightning Attention 上下文优化注意力机制相比 DeepSeek R1 等模型，在处理 10 万 tokens 的生成任务时，MiniMax-M1 的计算量仅为其 25%。该模型基于前代模型 MiniMax-Text-01 开发，总参数规模为 4560亿，每个token激活参数为 45.9亿，支持最长 100万tokens 的上下文输入（约为 DeepSeek R1 的8倍）。提出了一种新型强化学习算法 CISPO（Clipped Importance Sampling with Policy Optimization），该算法：不裁剪 token 梯度，而是裁剪采样权重（importance weights）。减少训练不稳定性，提升收敛质量。缩短训练时长（Qwen2.5对比实验显示，训练速度提升2倍）

MiniMax M1发布：开源长上下文推理模型引发AI领域震动· 23 条信息

#MiniMax-M1 #开源模型 #Lightning Attention #深度学习 #Qwen3 #DeepSeek-R1 #AI性能 #模型对比 #注意力机制 #上下文优化

張小珺 Xiaojùn

8个月前

长篇技术科普第三篇，关于注意力机制。上周DeepSeek和Kimi发布了最新研究工作，我们对DeepSeek NSA、Kimi MoBA、MiniMax-01，最近的3篇注意力机制论文逐篇精读。（嘉宾松琳在MIT做注意力机制研究方向）——希望和你一起领略科技平权，感受技术之美，也希望我们能与AI共同进步🤩

#技术科普 #注意力机制 #AI #DeepSeek #Kimi #科技平权

澎湃新闻-10%公司

8个月前

梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么

#注意力机制 #大模型 #论文撞题