#transformer

1周前

2025年的一天，Google的会议室里，一场持续四小时的内部会议刚刚结束。屏幕上展示着最新数据：他们的AI模型Gemini用户已达4.5亿，云服务年收入突破500亿美元，自研的TPU芯片正成为全球AI算力的核心之一。但会议室里的气氛并不轻松——十年前，就是在这样的技术优势下，他们发明了Transformer，却让OpenAI和Anthropic从自己的实验室里"走"了出去。一、从微厨房到核心引擎（2000-2007）一切的起点，藏在Google早期的微厨房里。 2001年的某个午餐时间，工程师George Herrick和刚入职的Noam Shazeer聊起一个想法："如果能压缩信息，就等于理解信息。"当时没人在意这个闲聊，直到他们决定用整个周末验证这个猜想。在那个"人人都能尝试新想法"的时期，Sanjay Ghemawat——Google最顶尖的工程师之一——只说了一句"我觉得这很酷"，就给了他们坚持的底气。他们花三个月搭建了一个基于互联网文本的概率模型，能预测下一个词出现的概率。这个被命名为PHIL的系统，不仅成了搜索"你是不是要找"的拼写纠正功能，还在2003年被Jeff Dean改造成AdSense的核心——那个让Google广告收入暴涨的系统，至今仍在创造巨额财富。二、AI黄金十年（2007-2017） 2007年，Google翻译的首席架构师Franz Och带着一个"12小时翻译一个句子"的项目找到Jeff Dean。三天后，Dean用并行计算技术将时间压缩到100毫秒——这就是深度学习在产品中的首次惊艳亮相。与此同时，斯坦福AI实验室的Sebastian Thrun被Larry Page"收购"进Google。他带来的不仅是AI教授团队，还有两个未来的关键人物：后来OpenAI的Sam Altman和Meta的Chris Cox。2011年，Andrew Ng、Jeff Dean和Greg Corrado启动了"Google Brain"项目，用16000个CPU核心在YouTube视频帧上训练出能"认出猫"的神经网络。当这个结果在全员大会上展示时，所有人都意识到："AI时代来了。" 2012年，AlexNet在ImageNet竞赛中掀起深度学习革命，而Google则用5.5亿美元收购了DeepMind。这家由Demis Hassabis创办的公司，后来用AlphaGo让世界见证了AI在围棋领域的突破。三、Transformer：改变世界的"猫论文"（2017） 2017年，Google Brain的八人团队发表了《Attention Is All You Need》。这篇论文用"注意力机制"彻底改写了语言模型的历史，成为GPT、LLaMA等一切大模型的基础。但当时的Google内部，对此的反应更像是"这是下一个技术迭代"——没人预料到，这会成为OpenAI崛起的直接导火索。论文的主要作者Noam Shazeer曾向领导层提议："我们应该用Transformer重构整个搜索系统"，但被以"安全风险"为由搁置。更讽刺的是，他们的实验模型需要五轮对话才能继续，被内部戏称为"五轮机器人"。四、ChatGPT的惊雷（2022） 2022年底，当ChatGPT以"史上最快达到1亿用户"的速度引爆全球时，Google才真正意识到危机。Sundar Pichai立即启动"Code Red"计划——全力追赶。 2023年，Google推出Bard，却因一个事实错误导致股价单日暴跌8%。直到2024年，整合了DeepMind和Brain的Gemini 1.5发布，拥有100万token上下文窗口，才算真正与GPT-4分庭抗礼。五、创新者的困境今天的Google拥有顶级模型、自研芯片、庞大云服务和全球最大的搜索流量，但依然面临抉择：是全力押注AI，还是保护每年数百亿美元的搜索广告收入？内部有人说："Google就像一个手握核武器的国家，却不敢轻易开火。"他们担心激进投入会动摇根基，又害怕保守会错失未来。但历史往往证明，真正的巨头会在危机中找到破局点——就像当年AdSense和YouTube的诞生。六、未来的十字路口 Google正以"快速但不鲁莽"的节奏推进：统一AI团队、加速模型迭代、探索新商业模式。Gemini已整合进搜索、云服务和企业应用，甚至开始测试自动驾驶的AI决策系统。但AI的战争才刚刚开始。OpenAI的GPT-5、Anthropic的Claude 3、微软的Copilot 4，以及无数创业公司，都在争夺下一个万亿市场。Google能否用它的全栈优势，在这场"AI搜索"的战役中重新定义自己？ 25年过去，从微厨房的一个想法到如今的AI巨头，Google的故事仍在继续。或许正如Jeff Dean常说的："真正的创新，往往藏在没人看好的角落。"而这一次，他们能否抓住那个改变未来的"角落"？答案，将在未来五年揭晓。

Google Gemini 2.5发布引发AI模型性价比热议· 280 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 654 条信息

#Google #Gemini #OpenAI #transformer #AI竞争

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

ICL的表达力边界定理（ICL的容量限制）：如果上下文长度为 L，隐藏维度为 d，则ICL最多能表示秩为 min(L, d) 的函数。推论： •对于 L=100, d=1000 的Transformer •ICL最多能学习”100维的线性子空间” •远小于IWL的 d²=1,000,000 维参数空间这解释了： •为什么ICL适合”快速适应”（低秩近似足够） •为什么IWL适合”长期学习”（需要高秩表达力） •两者互补的必然性

#ICL #transformer #容量限制 #线性子空间 #快速适应

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

关键突破：从Transformer到”任何复杂神经网络” 论文的结论部分有个惊人的陈述： “Our results remain valid if the self-attention layer is switched by other forms of contextual layers, like that of a RNN, or any layer that can take an input and optionally a context.” 这意味着： ICL ≠ Transformer的专属能力任何具有以下性质的架构都有ICL能力： 1.有一个层可以接受”上下文”（Contextual Layer） 2.这个层后面跟着一个神经网络（任何形式）满足这个条件的架构： •✅ Transformer（显然） •✅ RNN + 注意力 •✅ 状态空间模型（如Mamba） •✅ 甚至是：人类大脑（皮层 = 上下文层，皮层下结构 = MLP）

#transformer #神经网络 #ICL #RNN #Mamba

1个月前

Attention is all you need，顺着历史脉络去看 Transformer 自注意力机制的发展，还经历了Bag-of-Words、Word2vec、RNN、Attention 等概念的演进。《图解大模型》把 LLM 的内部原理，包括预训练、微调、语言模型的应用和优化等，一步步做了图解分析，写得挺不错👍

#transformer #自注意力机制 #大模型 #图解分析 #LLM

1个月前

一小时了解大模型，从函数到Transformer！一路大白话彻底理解AI原理。非常适合入门。有了总体框架之后再去学习具体的知识点。点击链接，一键跳转微信免费领取大模型全套资料：

#大模型 #transformer #AI原理 #入门 #免费资料

2个月前

折腾了快一周，终于磕磕绊绊地把Transformer复现了一遍。现在的感觉是，Transformer的构造绝对是天才+汗水的产物。无论是理论上还是工程上都具有划时代意义。(虽然现在这么说有点马后炮了)

#transformer #复现 #磕磕绊绊 #天才 #汗水

5个月前

今天空间的里讨论的物理、飞机、涡轮发动机、鸟的飞行、开普勒、火星、机器人、AI、Transformer、和哲学水平，你打几分

#物理 #飞机 #涡轮发动机 #鸟的飞行 #开普勒 #火星 #机器人 #AI #transformer #哲学

马东锡 NLP 🇸🇪

7个月前

「LLM, Reasoning」论文： Rethinking Reflection in Pre-Training 预训练卷土重来，reasoning 时代神奇的 “wait” 再现。本周我最喜欢的一篇论文来了。来自 Essential AI，由 Ashish Vaswani 主导，对写过论文的人来说，这个引用太熟悉了（Vaswani et al., 2017）， Transformer 论文第一作者。论文提出一个非常重要的发现：LLM 在 pretraining 阶段就已经表现出跨任务、跨领域的 general reasoning 能力。更特别的是，一个简单的 token ——“wait”—— 可以作为 reflection trigger，显著提升模型的 reasoning 表现。相比当前主流的 post-training 方法，不断精细 reward model 的策略，这项工作跳出box，从新的角度审视大模型reasoning的问题。说实话，RL 的各种 reward 操作看得人有点累觉不爱，而且在提升 general reasoning 上已经逐渐显现出瓶颈 —— 许多方法仍然停留在 task-specific 的 math benchmark 上，并没有真正触及 reasoning 的本质：跨领域、跨任务、可迁移。相比之下，pretraining 的方法显得更为“neat” —— 不仅更敏捷，也更接近 LLM 的能力本源。 Make pretraining Great Again!

#预训练 #推理 #论文 #Essential AI #Ashish Vaswani #transformer

7个月前

这个方法重要啊！生成一致性更好的长视频，解决长视频上下文难题！Test-Time Training 为解决当前 Transformer 架构依旧难以生成长达一分钟的视频（自注意力机制在处理长上下文时的低效所导致），研究提出了新的 Test-Time Training 层，其隐藏状态本身可以是神经网络，因此比传统层更具表现力，从而实现更具一致性、自然度和美感的长视频生成项目页（视频来自此）：论文：代码：

#长视频 #Test-Time Training #transformer #自注意力机制 #视频生成

7个月前

这两天闹的沸沸扬扬的朱啸虎唱衰具身智能的言论部分认同: 1. 当前具身智能领域大都还在走传统的路线，犹如2023年之前AI1.0时代的NLP和CV路线，后来transformer出现后将原先语言和视觉路线干废。具身智能也需要经历一次这样的临界点，当前还处于1.0时代，未来VLA模型成熟后，必然会将门槛极大的降低下来，泛化性能增强。 2.当前国内的大多数具身智能公司，很多都是用国外开源的路线二开改来的没啥太强的门槛，泛化能力很差，包括头部几家机器人公司也是如此，这种路线不会持久，犹如元宇宙时代的数字人公司的性质。 3.VLA模型临界点过了之后，ROS和VLA模型协同后，那么整个具身智能领域会进入2.0新的阶段，就像数字人公司在大模型公司加持后，产生了更强的价值。 4.当前市面上的，具身智能公司有场景的公司微乎其微，因为泛化能力不行，针对场景的落地成本极高，大都需要定制，只有VlA成熟后，才能实现场景落地大爆发。 5.VLA模型上gemini和figure公司都弄了自己的VLA模型，国内智元说自己有，技术路线和商业路线不清晰，泡沫说实话太高，这点我认可朱啸虎。 6.至于大家会反驳宇树科技营收好，貌似很多人或者公司买就是为了拍视频装逼pr吧，不是实用性的消费，不进消费场景实际解决问题注定走不远。 #vla #具身智能

#朱啸虎 #具身智能 #AI1.0 #NLP #CV #transformer #VLA模型 #泛化性能 #国内公司 #开源

杀马特副教授

7个月前

最近辛顿认为开源的deepseek大模型类似把核武器给了普通人。先不说这个比喻合不合理，其实这个比喻的背后有个更根本的问题：“谁有资格拥有核武器”？ deepseek的模型是开源的，但是训练模型的方法并没有全部开源，到目前为止，利用deepseek提供的思路训练出来的大模型比如QWen QWQ，能够思考，“有点意思”，但是又“差点意思”。不过客观的说，现在基于transformer lens （透镜）技术来考察的deepseek 并没有发现有什么特别的神秘技术。各种越狱版也工作正常。一定要认为大模型只能掌握在少数人手中的想法其实问题很大。

#辛顿 #核武器 #DeepSeek #开源 #QWen QWQ #transformer

10个月前

这次的NV也是大失所望还在玩5070(+dlss4)=4090(gaming)这种低级文字游戏，cuda数2w的5090比4090快30%这不是废话吗？功耗也涨了40%，结果是性能倒吸最关键的是2000刀的显卡居然只给了32G显存，现在二手A100都只要2500了整个发布会就只有DLSS4能看，还是50系专属，40系是跑不动transformer吗？

#NV #性能提升 #DLSS4 #显卡发布会 #显卡价格 #32G显存 #A100 #50系显卡 #transformer

NO CONTEXT HUMANS

10个月前

At 18 lifejackets she looks like a transformer

#transformer #lifejackets #safety #fashion