宝玉
2个月前
关于 GPT-4.5/5 及更多信息的摘要:太长不看版 GPT-4.5 (“Orion” / 猎户座) * 最初以 Orion 为代号开发,并计划作为 GPT-5 发布。 * 性能令人失望:与 GPT-4o 相比没有重大飞跃。 * 失败原因: * 用于预训练的高质量网络数据日益枯竭。 * 优化方法在小模型上有效,但无法扩展到大模型。 * 后果: 于 2025 年 2 月作为 GPT-4.5 发布,并迅速失去了重要性。 GPT-5 * 焦点: 侧重于实用性改进,而非量子跳跃式的发展。 * 编程与数学: 能编写更简洁、功能更丰富、用户体验更友好的代码。 * 智能体能力: 更擅长处理复杂的任务列表和边缘案例(例如,客服退款)。 * 效率: 能更高效地使用计算资源,在不大幅增加算力消耗的情况下提供高质量答案。 * 新技术: * 采用强化学习与“通用验证器”(Universal Verifier),该验证器能自动核查答案。 * 基于 o 系列(o1, o3)的经验,该系列在纯推理任务上表现强劲,但在聊天对话中性能下降。 * 结果: 实现了增量式但具有商业价值的改进——但并非像 GPT-3 到 GPT-4 那样的飞跃。 问题与内部动态 * 技术障碍: * 聊天模型(“学生模型”)的性能下降。 * 预训练的局限性和数据稀缺。 * 内部矛盾: * 研究人员因 Meta 的优厚薪酬(锁定式合同)而离职。 * 研究与商业之间的冲突:抵制与微软建立过于紧密的关系。 * 研究主管 Mark Chen 与副总裁 Jerry Tworek 在 Slack 上发生公开摩擦;同时,Mark Chen 在团队重组和研究员离职事件中也是一个有争议的人物。 与微软的交易 * 微软拥有到 2030 年的独家权利,并计划在营利性公司架构中持有约 33% 的股份。 * 战略性谈判正在进行中,同时 OpenAI 正在为可能的 IPO 做准备。
宝玉
2个月前
现在很多 Context Engineering 谈的是如何构建 AI Agents 用到的技术,对于普通人未必适用,我总结了一点普通人使用 AI 时用得上的 Context Engineering。 Context Engineering 核心是两点: 一、更少的上下文 二、更准确的上下文 一、更少的上下文 这条有点反常识,现在提示词都超长,似乎提示词不长就不好了,但实际上,提示词太长会影响生成结果,产生幻觉,尤其是太多无关的内容在上下文更会如此。 对此两点注意的: 1). 多开新会话而不是同一个会话一直聊 当你会话太长,后续你发的内容,AI 不容易抓住重点,可能会忘记你前面说的,最好是到一定程度,让 AI 帮你总结一下重点,然后新开会话。如果是和当前会话无关的任务,直接新开会话。 2). 一次一个小的任务,而不是太复杂的任务 这有点像人,当你任务太多太复杂,AI 很难完成好,但是你让 AI 一次完成一个小任务,就好很多。 二、更准确的上下文 准确的上下文好理解,就是让 AI 更准确的知道你想要什么,以及它有完成任务所需要的信息 要让 AI 获得更准确的上下文,有两种主要方式,这两种方式互为补充。 一种就是我们提供准确和充足的上下文给 AI,另一种就是让 AI 帮我们找到上下文。 1. 我们提供准确和充足的上下文给 AI AI 并不知道我们知道的信息,所以我们需要主动告诉AI我们知道它不知道的信息,比如说让AI帮我写简历,那我得把我的信息都告诉AI,不然它也写不出来。 使用AI写代码,一个实用的技巧就是把你知道的相关的文件都提供给它参考,让它可以读到文件内容,这样它就不会遗漏重要信息。 2. 让 AI 帮我们找到上下文 现在 AI Agent 都有能力帮我们找上下文,但能力有好优化,对于普通人来说,这几点直观重要: 1). 选擅长 Agent 任务模型 Claude 4 Opus/Sonnet, OpenAI o3 是 Agent 效果最好的,现在国产的很多专门为 Agent 优化过的模型也很强了,比如 Doubao Think 1.6, GLM 4.5, Kimi K2 等等 2). 为 AI 提供合适的工具 Agent 最重要的就是有工具能力,能借助工具去找上下文,但是它只有内置的几个工具,有时候需要你提供额外的工具会更有效,比如现在的 MCP 工具,可以让 AI 访问到一些内部的数据,或者操作浏览器等等。 编程的时候,我自己有个常用的技巧:就是让 AI 写测试代码,并告诉AI如何测试单个文件,这样 AI 就可以自己去验证自己写的结果,实现完功能写测试,写完测试运行,运行出错去修复,直到完成,这样不需要太多干预就可以得到不错的结果,当然还是要人工审查一下,有时候 AI 为了通过测试会无所不用其极…… 3). 让 AI 先做计划,避免在错误的方向越走越远 对于复杂一点的任务,如果AI方向错了,就会在错误的方向越走越远,白白浪费tokens,现在像 Claude Code 这样的AI Agent都会有Plan mode,就是先做计划,做完计划仔细看一下计划内容,如果方向不对,就需要让它改正,或者直接重开新会话,调整提示词,让 AI 搞清楚正确的方向是什么,方向对了再去执行。 上面就是我整理的一点经验技巧,希望对你有用,也欢迎交流分享。
阿泽KK
2个月前
ACL 2025 最佳论文前两天公布了,俗话说:错过ACL 2025 = 在AI 2.0时代掉队🤣 于是今天一早,在 G 老师的协助下,火速拜读了由 DeepSeek & 北大等联合发表的论文:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。 📝 一句话总结:这篇论文不仅提出了一个新的 Attention 结构,更重要的是,它为“大模型在训练和推理阶段如何高效处理长上下文”这个老大难问题,给出了一个真正可落地、可扩展的结构性解法。 𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅 01|先捋清楚:长上下文处理,难点在哪? 原始 Transformer 的 Attention 是全连接的 —— 每一个 token 都要跟前面所有 token 做一次注意力计算。 这种结构虽然简单有效,但当上下文长度从 2K 增加到 64K 时,计算量和内存需求就会指数级飙升,直接拖垮效率。 比如当前主流大模型是“自回归”地一个词一个词生成,也就是说每输出一个 token,都要重新读并计算之前所有的 token,导致 GPU 明明计算力挺强,但要一直等计算完才行 —— 这就像在做阅读理解题,每写一个字,都得从头看前面写了啥。所以写得慢,不是因为不会写,而是因为每次回看太耗时间了。 NSA 论文也指出,在处理 64K token 的长上下文时,光是 Attention 模块里的 Softmax 操作就占了70~80% 的推理延迟,很影响效率。 02|稀疏化注意力早就被提出了,为什么以前都没完美解决难题? 其实很多人早就尝试用“稀疏注意力”来减轻计算压力,比如BigBird:滑动窗口 + 全局 token + 跳跃连接、ClusterKV:对 token 做语义聚类,只关注代表性 token等等。 但这些方法基本都只能在“推理阶段”用,训练阶段模型根本学不会怎么选重点。 更致命的是:很多稀疏策略是离散不可导的,模型压根无法“学着自己调整关注重点”。 通俗点说:以前的方法更像是“临时抱佛脚看重点”,而不是“从一开始就学会划重点”。 所以模型最终也就学不到真正高效理解文本的能力,无法从根本解决长上下文的挑战。 03|NSA 的核心创新:让模型从训练第一天起就学会“划重点” 它是怎么做到的?由两大关键组成:三分支注意力机制 + 可微分门控融合。 三分支注意力机制: 1️⃣ 压缩注意力:快速扫一眼,抓全局概念。➡️ 类似于看目录、抓关键词。 2️⃣ 选择注意力:选择重要的内容看 ➡️ 类似跳读找重点,精准阅读。 3️⃣ 滑动注意力:保留局部上下文信息,确保语义连贯。➡️ 类似连着上下文看,不跳行。 可微分门控融合: 前面说的三种注意力机制并不是互斥的,而是并行存在的。然后在NSA 中每个 token 都通过一个小的门控网络(MLP)生成三个融合权重,对三路注意力输出加权平均。 这一步很关键: ✅ MLP 是可微分的,意味着这些权重是可训练的; ✅ 每个 token 都可以根据自己的上下文内容,动态决定到底用多少“扫一眼”,用多少“挑重点”,用多少“连着看”。 👉 换句话说,模型就像有了内建的“阅读策略”: 该扫一眼时扫一眼、该精准跳读时跳读、该连着读时不跳行,从头到尾都在自主划重点。 04|还有一项关键突破:硬件对齐优化 以往稀疏 Attention 最大的难点之一是:你虽然选中了 10 个重点 token,但它们分布在 GPU 内存中各个角落,导致读取时要跳来跳去,访问成本高,效率不升反降。 NSA 在执行上设计了原生的可训练稀疏 Attention 路径,并和底层硬件执行方式做了深度对齐 —— 虽然细节略复杂,但结论很清晰。 05|那实际效果怎么样?来看多个维度的评测: ❇️ 通用任务(如 MMLU、HumanEval):9个基准中7项优于全Attention ❇️ 长文本任务(如 LongBench):在64K tokens下准确率保持100% ❇️ 链式推理任务(如 AIME 数学题):在8K/16K上下文下大幅超越全Attention,推理逻辑能力更强 更重要的是:这些性能是在显著降低显存和推理延迟的同时实现的。 𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅 📍总结一下: 过去做不出NSA,是因为“划重点”的方法太随机、太粗暴,模型既学不会也算不快。 而NSA则把“划重点”变成一种可以训练的能力,还找到了让GPU快速配合的方法,真正让稀疏注意力从“理想”变成了“实用”。 如果你也对这个领域感兴趣,NSA 的论文绝对值得啃完一遍。毕竟——长上下文不是下一个挑战,而是现在的主战场。 #AI #NSA #ACL2025NLP #Studylog #DeepSeek