时政
财经
科技
虚拟货币
其他
登录
Line
关注
统计数据
5
文章
0
粉丝
0
获赞
16
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
Line
4周前
这篇 2025,07 , 由 Deepmind, Meta, Anthropic, OpenAI AI 安全专家写的论文 《Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety》 讲了 CoT 安全的重要性, 警告我们不要轻易放弃可解释性 CoT。 这篇文章也获得了 Geoffrey Hinton, Ilya Sutskever 在内几个 大佬的背书。 论文里说到: 模型推理是依赖显式输出的 token 的, 现在的模型架构只有输出的 token 才能激活保存在参数内的模式。 另外,显式的输出答题步骤才有可能以单次固定算力消耗,然后,积累算力的方式,去解决一个需要多步推理才能解决的复杂问题。 (这里的输出 tokens 就相当于支付算力回答难题所支付的算力币) 以人类可理解符号进行思考对 LLM 来说其实是没有必要, LLM 完全可以以更压缩或更晦涩的符号进行思考。 如果模型以这种方式进行思考,会导致模型的行为方式由之前的半透明(CoT 可读),变回黑盒。 我们可以强制模型用自然语言进行思考, 但是,当模型足够聪明,模型可能学会用自然语的推理的同时隐藏自己的真实意图。 另外一方面,为了最求高效推理,人类甚至还会主动放弃显式 CoT,而采用潜在推理空间 (latent reasoning space) 类的技术。这会让模型的行为变得更为不可以预测。 也就是如果按现在的趋势发展下去: - 模型能力增强了会在知道自己被观测时隐藏自己的真实意图。 - 出于对高效推理的最求,我们会主动放弃显式 CoT。 都有可能产生非常危险的后果。 他们的建议: - 可以采用另外一个同等级的安全 AI 来监控解释在运行的 AI。 - 通过扰动修改模型 CoT 看观察模型是否存在欺骗行为,(大量行为无关 CoT 就可能是欺诈) - 在模拟环境中端到端地观察模型的行为 - 在系统卡中标注 CoT 可监控性的评估结果 - 不要轻易放弃可解释性 CoT, 哪怕牺牲点性能也没关系
#CoT安全
#AI安全
#可解释性
#模型欺骗
#潜在推理空间
分享
评论 0
0
Line
1个月前
论文地址:
分享
评论 0
0
Line
1个月前
2025,06, Deepmind 的这篇论文在定理1 中证明了:我们在无世界模型(model-free) 环境下训练出的某个策略模型,如果遵循这个策略模型能让模型通过推理接近一个目标,那么,这个策略模型在内部必定有一个等价的世界模型。 定理1 的大概证明方法就是通过构造两个选项 A(事件发生的概率 > k ),B (事件发生的概率 < k ), 然后,递进的向策略模型π 来试探 k 值, 再反推出模型对世界的建模情况, 当 k 与真实 概率接近时就说明了策略模型中对世界的建模是对的,也就是在内部存在一个准确的世界模型。 在论文定理 2 中他们进一步证明了, 当策略预测任务过于简单,是玩法估算出这个概率 k 的, 因为过于简单的任务等价说这样的选项: A:事件可能发生, B:事件不可能发生。 这类时序复杂度 n = 1 的任务在数学上就玩法算出概率 k, 只有 n>1 才有可能估算出概率 k, 从而逆推出世界模型。 这篇论文的证明补充了之前理论的一个短板, 现在完整的理论是这样的: (g, p) -> π : 表示给定一个世界模型p,以及目标(g), 必存存在一个最优策略 π。 这是强化学习的理论基础, (p, π) -> g : 给定一个世界模型p,及某个策略,能否确定唯一的目标。这个不成立 (g, π) -> p : 这个说的是:能达到给定目标 g 的策略函数π,必定包含了一个世界模型p(本论文的贡献) p 代表状态转移函数,状态转移函数就是 MDP (马尔可夫过程)中让一个状态转移到下一个状态的函数,世界模型可以用状态转移函数近似。 注意:这里的世界模型是相当广泛概念,可以指真实的世界(FSD 眼中的世界),也可以虚拟的世界(比如人造游戏,围棋,象棋之类)。 如果要实现人类智力圣杯 AGI , 这个世界模型几乎需要包括人类认知的一切,包括: 物理世界, 社会规则, 人类的心智世界, 甚至是由心智创造出来的虚拟世界。 目前的 LLM 也在逼近这样的世界模型,只是距离依然相当遥远。
分享
评论 0
0
Line
2个月前
陶哲轩:人类并没有专门数学脑区, 不同的人处理数学问题有他们自己的方法。 * 有些人调用视觉中心,所以他们以视觉化的方式思考数学。 * 有些人调用语言中心,所以他们以符号化、逻辑化的方式思考。 * 有些人调用解谜/游戏中心,所以他们擅长竞赛和策略性的思考。 而我们现在的教育是在试图用同一种方法去教所有的学生。这会导致有些人过早地与数学“失联”。
#陶哲轩
#数学脑区
#数学思维
#教育方法
#个性化学习
分享
评论 0
0
Line
5个月前
# Deepseek 的注意力优化算法: NSA 当前 AI 有一个很重要的能力指标叫上下文长度,这个长度在ChatGPT出来的时候是4K, 现在主流模型基本上做到了128K, 谷歌, MiniMax已经做到了1m,2m。 如果把这个长度类比成计算机内存,我们现在还处在晶体管时代。 这个长度难以拓展的原因在于注意力的复杂度上。随着问题上下文变长原始 Transformer 注意力的计算量呈平方增长的。 这次 Deepseek 用 NSA 算法把原来计算复杂度由 $O(t^2)$ 改进到了 $O(t* N)$ 这个 N 远小于 t. 更神奇的是这种优化不只是无损的,甚至还是有益的。 ## 人类是怎么分配注意力的 传统的注意力计算是这样的,根据问题一个字一个字的往前计算注意力。不管这个字与问题关联大不大,都一视同仁,都要计算,最后,再通过注意力值的相关系数来区分一个字,一段话,重不重要。 NSA 则更智能它的的思路可能是参考自人类在阅读长文注意力机制, 比如:我们在阅读一篇长文时是这样处理问题的: 遇到问题q -> 根据问题类型选择关注策略(部分段落还是横跨全文) 。 再根据策略: 快速扫一下全文 -> 精选出相关部分 -> 整理精选内容(把这些内容的上现也看看) -> 再计算注意力。 ## NSA 的思路 NSA 也是这个思路,类似的 NSA 是这么做的, 其中: - **根据问题类型选择关注策略** ➡️ **门控聚合 Gated Aggregation** - **快速扫一下全文 ➡️** **Token 压缩 Token Compression** - NSA 先把长文本“压缩”成一系列“要点”(compressed tokens) - **挑出相关部分** ➡️ **Token 选择 Token Selection** - NSA 从这些“要点”中挑选出最相关的部分,就像你找到相关的段落。 - **整理精选内容** ➡️ **滑动窗口 Sliding Window** - NSA 会仔细处理这些被选中的部分,同时看看被选中部分的,上下文 上面的过程会同时对 K,V 作用,然后得到 $\tilde{K}_t, \tilde{V}_t$, 最后的注意力计算就变成:$o_t = \text{Attn}(q_t, \tilde{K}_t, \tilde{V}_t)$ NSA 的重点在于整个过程都是动态的,可学习的,这意味着这个智能选择的关注过程与 q 高度相关,这也是 NSA 能节省计算量的关键。 ## 硬件上的优化 为了让算法更高效,他们还对硬件做了细致控制, 比如: 1. 把大量的计算由HBM 改到更高效的 SRAM 中进行,避免的挑选带来的数据过于分散, 2. 尽可能多的共享查询头数据, 3. 自定义 CUDA kernel. ## NSA 的效果 从上图,可以看出 NSA 的在不同任务的表现都相当好,甚至好于全注意力,而且解码,训练推理,反应传播的速度也比全注意力快。 NSA 的效果好于全注意力的原因可能在于: NSA 的稀疏性起到了正则化的作用。通过限制每个 query 可以关注的 key-value 对的数量,NSA 降低了模型的复杂度,减少了过拟合的风险。这类似于 Dropout 或其他正则化技术,NSA 的稀疏性可以被看作是一种 "注意力 Dropout"。 ## 存在的问题 - 前面说的 ”注意力过程与 q 高度相关“, 而 q 是动态的。这里也带来了一个问题提示词缓存失效了,也就是没法复用已经计算过的注意力。如可以缓存计算结果,甚至可以长文缓存在内存甚至是SSD上, 如果是 NSA 这个以前这个省钱小技巧没用了。 - NSA 带的另外的问题是加入新的结构让训练难度上升了, 跟硬件 CUDA 相关的硬件优化方案,也没法直接迁移到其他硬件上。 ## 后记 他们出之前 MLA (Multi-head Latent Attention) 算法也是注意力计算的优化,不过 MLA 做的是静态的优化,而且计算量还是不小,可能这种优化还会掉点。 如果能在以后的模型训练中如果能用上 NSA, 模型的总体的能力还有上升空间, 对普通用户来说缺点可能是推理价格要上涨了。 发现最近有关 Transformer 注意力算法的公开的创新都是国内公司在做: - Deepseek 有 MLA, NSA - Minimax 有线性注意力 - Moonshot 有发了 MoBA 欧美的几家头部肯定也有方案,就是最近都不怎么公开了😂。
中国DeepSeek引发美国科技股暴跌事件· 96 条信息
分享
评论 0
0
1
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞