时政
财经
科技
虚拟货币
其他
登录
#transformer
关注
向阳乔木
1个月前
应该是上周 Jeff Dean 在斯坦福做了个分享,用AI总结写成文章,视频见评论区 AI 是怎么突然变这么强的? Jeff Dean,Google 的 AI 负责人,他用自己的经历,讲了这个故事。 他说:"我们今天看到的 AI,是过去十五年技术叠加的产物。" 不是一个突破。是一系列突破。 每一个突破,都让 AI 往前跨了一大步。 接下来,让我讲清楚这些突破是什么。 从最早的"模型学会了猫",到今天的"AI 拿奥数金牌"。 2012,模型自己学会认识猫 2012 年。Google Brain 项目。 Jeff Dean 和他的团队,在做一个实验。 他们想知道:AI 能不能自己学会认识东西? 不给标签,不告诉它"这是猫""这是狗"。就给它一堆图片,让它自己看。 他们用了 1000 万个 YouTube 视频帧,随机的。没有任何标注。 然后,他们训练了一个神经网络。网络很大,比以往大 50 到 100 倍。 训练完之后,他们看了看网络顶层的神经元。它们在对什么敏感? 结果让所有人震惊。 有一个神经元,对"猫"特别敏感。你给它一张猫的图片,这个神经元就会被激活。你给它一张狗的图片,它不会被激活。 模型自己学会了"猫"是什么。 没人教它。它自己从 1000 万张图片里,学会了。 这就是无监督学习。 Jeff Dean 说:"这太酷了。" 因为这证明了:AI 可以自己发现概念。不需要人类告诉它"这是什么"。它只需要看够多的数据。 这是 AI 学习能力的起点。 我们讲了 AI 怎么学会"看"。 现在,我们讲 AI 怎么学会"理解语言"。 关键技术:Word2Vec。 以前,计算机处理语言,是把每个词当成一个孤立的符号。"猫"就是"猫"。"狗"就是"狗"。它们之间,没有关系。 但 Word2Vec 不一样。它把每个词,变成一个高维向量。 什么意思?就是,每个词都是一串数字。比如,"国王"可能是 (0.5, 0.8, 0.3, ...)。"女王"可能是 (0.5, 0.2, 0.3, ...)。 但神奇的是:这些向量的方向,是有意义的。 如果你做一个计算:"国王" - "男人" + "女人",你会得到一个新的向量。 这个向量,最接近的词是:"女王"。 这就是 Word2Vec 的魔力。 它不只是把词变成数字。它让语义关系,变成了数学关系。"国王"和"女王"的关系,就像"男人"和"女人"的关系。 这个关系,被编码在向量的方向里。 Jeff Dean 说:"这让机器第一次能'理解'语言。" 不是真的理解。但它能计算语义。 我们讲了 AI 怎么理解语言。 现在,我们讲一个更现实的问题:算力。 2015 年左右。Google 想推出一个改进后的语音识别模型。效果很好,用户会喜欢。 但有一个问题。 Jeff Dean 算了一笔账:如果要用这个模型,Google 需要把计算机数量翻一倍。 你没听错。翻一倍。 这是什么概念?Google 当时已经有几十万台服务器了。翻一倍,意味着再买几十万台。 这根本不现实。 所以,他们必须想办法。 答案是:专用硬件。 他们发现,神经网络有一个特性:它对低精度计算非常宽容。 而且,它的核心就是密集的矩阵乘法。 这两个特性,让他们可以设计专门的芯片。 不用通用的 CPU,也不用 GPU。而是专门为神经网络设计的芯片。 这就是 TPU:Tensor Processing Unit。 2015 年,TPUv1 推出。 它比当时的 CPU 和 GPU,快 15 到 30 倍。能效高 30 到 80 倍。 这解决了算力危机。 后来,他们继续迭代。 最新的系统,比 TPUv2 快了 3600 倍。 Jeff Dean 说:"没有专用硬件,就没有今天的 AI。" 算力,是 AI 的基础设施。 Transformer 改变了一切 我们讲了硬件。现在,我们讲架构。 2017 年。Google 的一个同事,提出了一个新架构。Transformer。 这改变了一切。 在 Transformer 之前,处理语言的模型,都是循环模型。 什么意思? 就是,模型要一个词一个词地处理。 而且,它要把所有信息,压缩到一个向量里。 这很低效。 Transformer 不这么干。 它的核心思想是: 不要压缩,保存所有中间状态。 然后,让模型在需要的时候,去"关注"(Attend to)任何一个状态。 这就是 Self-Attention。 结果呢? 准确率更高。 计算量少了 10 到 100 倍。模型参数小了 10 倍。 这太疯狂了。更快,更准,更小。 而且,Transformer 不只能处理语言。 它还能处理图像。这就是 Vision Transformer(ViT)。 Jeff Dean 说:"Transformer 是现代 AI 的基础。" ChatGPT 用的是 Transformer。 Gemini 用的是 Transformer。 所有你看到的大模型,都是 Transformer。 让模型变聪明的三个技巧 我们讲了 Transformer。 现在,我们讲训练。 怎么让模型变得更聪明?有三个关键技巧。 第一个:稀疏模型。 正常的神经网络,每次预测都要激活整个模型。太浪费了。 稀疏模型不一样。它只激活 1% 到 5% 的参数。剩下的,都在"睡觉"。 这让训练成本降低了 8 倍。 Jeff Dean 说:"Gemini 就是稀疏模型。" 第二个:蒸馏。 这是把知识从大模型转移给小模型。怎么转? 大模型不只告诉小模型"对"或"错"。 它给的是概率分布。这个信号非常丰富。 结果呢?小模型只用 3% 的数据,就能达到大模型的效果。 第三个:思维链。 你给模型一个例子,让它"展示它的工作过程"。比如,做数学题的时候,不是直接给答案,而是一步一步写出推理过程。 这让模型在复杂推理任务上的准确率,显著提升。 这三个技巧,让模型变得更高效、更聪明。 前面我们讲了 AI 的技术基础。 现在,我们讲成果。 2022 年。Google 的研究员们,在为一件事兴奋。 他们的模型,终于能做初中数学题了。准确率:15%。 "约翰有五只兔子,又得了两只,他现在有几只兔子?"这种题。AI 能做对 15%。 他们觉得,这是个突破。 2024 年。两年后。 同一个团队,发布了 Gemini 2.5 Pro。他们让它参加国际数学奥林匹克。 六道题。它做对了五道。 这是金牌水平。 从 15% 的初中数学题,到奥数金牌。两年。 Jeff Dean 说:"这就是 AI 的进步速度。" 不是线性的。不是慢慢变好。 是指数级的。 2022 年,AI 还在学加法。 2024 年,AI 已经在解奥数题了。 那 2026 年呢?我们不知道。 但如果按这个速度,可能会超出我们的想象。 这就是我们今天看到的 AI。它不是慢慢变强的。它是突然变强的。 从 2012 年的"模型学会了猫",到 2024 年的"AI 拿奥数金牌"。 十二年。 AI 从几乎什么都不会,变成了几乎什么都会。 那接下来呢? Jeff Dean 说:AI 将对医疗、教育、科学研究产生巨大影响。 一个不会写代码的人,也能让 AI 帮他创建网站。 这是把专业知识普及给更多人。 但同时,我们也必须正视潜在的风险。 比如,错误信息传播。 AI 可以生成非常逼真的内容。如果被滥用,后果很严重。 Jeff Dean 说:"我们不能对潜在的负面影响视而不见。我们的目标是,在最大化 AI 益处的同时,最小化潜在的弊端。" 这就是 AI 的故事。 从反向传播,到 Transformer,到 Gemini。过去十五年,技术、硬件、算法,全都叠加在一起。 我们今天看到的 AI,是这一切的产物。 而这个故事,还在继续。
谷歌Deep Research:AI操作系统雏形?· 145 条信息
#AI
#Jeff Dean
#transformer
#Gemini
#AI 发展历程
分享
评论 0
0
Y11
1个月前
2025年的一天,Google的会议室里,一场持续四小时的内部会议刚刚结束。 屏幕上展示着最新数据:他们的AI模型Gemini用户已达4.5亿,云服务年收入突破500亿美元,自研的TPU芯片正成为全球AI算力的核心之一。 但会议室里的气氛并不轻松——十年前,就是在这样的技术优势下,他们发明了Transformer,却让OpenAI和Anthropic从自己的实验室里"走"了出去。 一、从微厨房到核心引擎(2000-2007) 一切的起点,藏在Google早期的微厨房里。 2001年的某个午餐时间,工程师George Herrick和刚入职的Noam Shazeer聊起一个想法:"如果能压缩信息,就等于理解信息。"当时没人在意这个闲聊,直到他们决定用整个周末验证这个猜想。 在那个"人人都能尝试新想法"的时期,Sanjay Ghemawat——Google最顶尖的工程师之一——只说了一句"我觉得这很酷",就给了他们坚持的底气。他们花三个月搭建了一个基于互联网文本的概率模型,能预测下一个词出现的概率。这个被命名为PHIL的系统,不仅成了搜索"你是不是要找"的拼写纠正功能,还在2003年被Jeff Dean改造成AdSense的核心——那个让Google广告收入暴涨的系统,至今仍在创造巨额财富。 二、AI黄金十年(2007-2017) 2007年,Google翻译的首席架构师Franz Och带着一个"12小时翻译一个句子"的项目找到Jeff Dean。三天后,Dean用并行计算技术将时间压缩到100毫秒——这就是深度学习在产品中的首次惊艳亮相。 与此同时,斯坦福AI实验室的Sebastian Thrun被Larry Page"收购"进Google。他带来的不仅是AI教授团队,还有两个未来的关键人物:后来OpenAI的Sam Altman和Meta的Chris Cox。2011年,Andrew Ng、Jeff Dean和Greg Corrado启动了"Google Brain"项目,用16000个CPU核心在YouTube视频帧上训练出能"认出猫"的神经网络。当这个结果在全员大会上展示时,所有人都意识到:"AI时代来了。" 2012年,AlexNet在ImageNet竞赛中掀起深度学习革命,而Google则用5.5亿美元收购了DeepMind。这家由Demis Hassabis创办的公司,后来用AlphaGo让世界见证了AI在围棋领域的突破。 三、Transformer:改变世界的"猫论文"(2017) 2017年,Google Brain的八人团队发表了《Attention Is All You Need》。这篇论文用"注意力机制"彻底改写了语言模型的历史,成为GPT、LLaMA等一切大模型的基础。但当时的Google内部,对此的反应更像是"这是下一个技术迭代"——没人预料到,这会成为OpenAI崛起的直接导火索。 论文的主要作者Noam Shazeer曾向领导层提议:"我们应该用Transformer重构整个搜索系统",但被以"安全风险"为由搁置。更讽刺的是,他们的实验模型需要五轮对话才能继续,被内部戏称为"五轮机器人"。 四、ChatGPT的惊雷(2022) 2022年底,当ChatGPT以"史上最快达到1亿用户"的速度引爆全球时,Google才真正意识到危机。Sundar Pichai立即启动"Code Red"计划——全力追赶。 2023年,Google推出Bard,却因一个事实错误导致股价单日暴跌8%。直到2024年,整合了DeepMind和Brain的Gemini 1.5发布,拥有100万token上下文窗口,才算真正与GPT-4分庭抗礼。 五、创新者的困境 今天的Google拥有顶级模型、自研芯片、庞大云服务和全球最大的搜索流量,但依然面临抉择:是全力押注AI,还是保护每年数百亿美元的搜索广告收入? 内部有人说:"Google就像一个手握核武器的国家,却不敢轻易开火。"他们担心激进投入会动摇根基,又害怕保守会错失未来。但历史往往证明,真正的巨头会在危机中找到破局点——就像当年AdSense和YouTube的诞生。 六、未来的十字路口 Google正以"快速但不鲁莽"的节奏推进:统一AI团队、加速模型迭代、探索新商业模式。Gemini已整合进搜索、云服务和企业应用,甚至开始测试自动驾驶的AI决策系统。 但AI的战争才刚刚开始。OpenAI的GPT-5、Anthropic的Claude 3、微软的Copilot 4,以及无数创业公司,都在争夺下一个万亿市场。Google能否用它的全栈优势,在这场"AI搜索"的战役中重新定义自己? 25年过去,从微厨房的一个想法到如今的AI巨头,Google的故事仍在继续。或许正如Jeff Dean常说的:"真正的创新,往往藏在没人看好的角落。"而这一次,他们能否抓住那个改变未来的"角落"?答案,将在未来五年揭晓。
Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#Google
#Gemini
#OpenAI
#transformer
#AI竞争
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2个月前
ICL的表达力边界 定理(ICL的容量限制): 如果上下文长度为 L,隐藏维度为 d,则ICL最多能表示秩为 min(L, d) 的函数。 推论: •对于 L=100, d=1000 的Transformer •ICL最多能学习”100维的线性子空间” •远小于IWL的 d²=1,000,000 维参数空间 这解释了: •为什么ICL适合”快速适应”(低秩近似足够) •为什么IWL适合”长期学习”(需要高秩表达力) •两者互补的必然性
#ICL
#transformer
#容量限制
#线性子空间
#快速适应
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2个月前
关键突破:从Transformer到”任何复杂神经网络” 论文的结论部分有个惊人的陈述: “Our results remain valid if the self-attention layer is switched by other forms of contextual layers, like that of a RNN, or any layer that can take an input and optionally a context.” 这意味着: ICL ≠ Transformer的专属能力 任何具有以下性质的架构都有ICL能力: 1.有一个层可以接受”上下文”(Contextual Layer) 2.这个层后面跟着一个神经网络(任何形式) 满足这个条件的架构: •✅ Transformer(显然) •✅ RNN + 注意力 •✅ 状态空间模型(如Mamba) •✅ 甚至是:人类大脑(皮层 = 上下文层,皮层下结构 = MLP)
#transformer
#神经网络
#ICL
#RNN
#Mamba
分享
评论 0
0
Barret李靖
2个月前
Attention is all you need,顺着历史脉络去看 Transformer 自注意力机制的发展,还经历了Bag-of-Words、Word2vec、RNN、Attention 等概念的演进。《图解大模型》把 LLM 的内部原理,包括预训练、微调、语言模型的应用和优化等,一步步做了图解分析,写得挺不错👍
#transformer
#自注意力机制
#大模型
#图解分析
#LLM
分享
评论 0
0
Olivert
3个月前
一小时了解大模型,从函数到Transformer!一路大白话彻底理解AI原理。 非常适合入门。有了总体框架之后再去学习具体的知识点。 点击链接,一键跳转微信免费领取大模型全套资料:
#大模型
#transformer
#AI原理
#入门
#免费资料
分享
评论 0
0
Mathew Shen
4个月前
折腾了快一周,终于磕磕绊绊地把Transformer复现了一遍。现在的感觉是,Transformer的构造绝对是天才+汗水的产物。无论是理论上还是工程上都具有划时代意义。(虽然现在这么说有点马后炮了)
#transformer
#复现
#磕磕绊绊
#天才
#汗水
分享
评论 0
0
勃勃OC
6个月前
今天空间的里讨论的物理、飞机、涡轮发动机、鸟的飞行、开普勒、火星、机器人、AI、Transformer、和哲学水平,你打几分
#物理
#飞机
#涡轮发动机
#鸟的飞行
#开普勒
#火星
#机器人
#AI
#transformer
#哲学
分享
评论 0
0
马东锡 NLP 🇸🇪
8个月前
「LLM, Reasoning」论文: Rethinking Reflection in Pre-Training 预训练卷土重来,reasoning 时代神奇的 “wait” 再现。 本周我最喜欢的一篇论文来了。 来自 Essential AI,由 Ashish Vaswani 主导,对写过论文的人来说,这个引用太熟悉了 (Vaswani et al., 2017), Transformer 论文第一作者。 论文提出一个非常重要的发现:LLM 在 pretraining 阶段就已经表现出跨任务、跨领域的 general reasoning 能力。更特别的是,一个简单的 token ——“wait”—— 可以作为 reflection trigger,显著提升模型的 reasoning 表现。 相比当前主流的 post-training 方法,不断精细 reward model 的策略,这项工作跳出box,从新的角度审视大模型reasoning的问题。 说实话,RL 的各种 reward 操作看得人有点累觉不爱,而且在提升 general reasoning 上已经逐渐显现出瓶颈 —— 许多方法仍然停留在 task-specific 的 math benchmark 上,并没有真正触及 reasoning 的本质:跨领域、跨任务、可迁移。 相比之下,pretraining 的方法显得更为“neat” —— 不仅更敏捷,也更接近 LLM 的能力本源。 Make pretraining Great Again!
#预训练
#推理
#论文
#Essential AI
#Ashish Vaswani
#transformer
分享
评论 0
0
-Zho-
8个月前
这个方法重要啊!生成一致性更好的长视频,解决长视频上下文难题!Test-Time Training 为解决当前 Transformer 架构依旧难以生成长达一分钟的视频(自注意力机制在处理长上下文时的低效所导致),研究提出了新的 Test-Time Training 层,其隐藏状态本身可以是神经网络,因此比传统层更具表现力,从而实现更具一致性、自然度和美感的长视频生成 项目页(视频来自此): 论文: 代码:
#长视频
#Test-Time Training
#transformer
#自注意力机制
#视频生成
分享
评论 0
0
AIGCLINK
9个月前
这两天闹的沸沸扬扬的朱啸虎唱衰具身智能的言论部分认同: 1. 当前具身智能领域大都还在走传统的路线,犹如2023年之前AI1.0时代的NLP和CV路线,后来transformer出现后将原先语言和视觉路线干废。具身智能也需要经历一次这样的临界点,当前还处于1.0时代,未来VLA模型成熟后,必然会将门槛极大的降低下来,泛化性能增强。 2.当前国内的大多数具身智能公司,很多都是用国外开源的路线二开改来的没啥太强的门槛,泛化能力很差,包括头部几家机器人公司也是如此,这种路线不会持久,犹如元宇宙时代的数字人公司的性质。 3.VLA模型临界点过了之后,ROS和VLA模型协同后,那么整个具身智能领域会进入2.0新的阶段,就像数字人公司在大模型公司加持后,产生了更强的价值。 4.当前市面上的,具身智能公司有场景的公司微乎其微,因为泛化能力不行,针对场景的落地成本极高,大都需要定制,只有VlA成熟后,才能实现场景落地大爆发。 5.VLA模型上gemini和figure公司都弄了自己的VLA模型,国内智元说自己有,技术路线和商业路线不清晰,泡沫说实话太高,这点我认可朱啸虎。 6.至于大家会反驳宇树科技营收好,貌似很多人或者公司买就是为了拍视频装逼pr吧,不是实用性的消费,不进消费场景实际解决问题注定走不远。 #vla #具身智能
#朱啸虎
#具身智能
#AI1.0
#NLP
#CV
#transformer
#VLA模型
#泛化性能
#国内公司
#开源
分享
评论 0
0
杀马特副教授
9个月前
最近辛顿认为开源的deepseek大模型类似把核武器给了普通人。 先不说这个比喻合不合理,其实这个比喻的背后有个更根本的问题:“谁有资格拥有核武器”? deepseek的模型是开源的,但是训练模型的方法并没有全部开源,到目前为止,利用deepseek提供的思路训练出来的大模型比如QWen QWQ,能够思考,“有点意思”,但是又“差点意思”。 不过客观的说,现在基于transformer lens (透镜)技术来考察的deepseek 并没有发现有什么特别的神秘技术。各种越狱版也工作正常。一定要认为大模型只能掌握在少数人手中的想法其实问题很大。
#辛顿
#核武器
#DeepSeek
#开源
#QWen QWQ
#transformer
分享
评论 0
0
大希沙织
11个月前
这次的NV也是大失所望 还在玩5070(+dlss4)=4090(gaming)这种低级文字游戏,cuda数2w的5090比4090快30%这不是废话吗?功耗也涨了40%,结果是性能倒吸 最关键的是2000刀的显卡居然只给了32G显存,现在二手A100都只要2500了 整个发布会就只有DLSS4能看,还是50系专属,40系是跑不动transformer吗?
#NV
#性能提升
#DLSS4
#显卡发布会
#显卡价格
#32G显存
#A100
#50系显卡
#transformer
分享
评论 0
0
NO CONTEXT HUMANS
1年前
At 18 lifejackets she looks like a transformer
#transformer
#lifejackets
#safety
#fashion
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞