#transformer

Y11
1周前
2025年的一天,Google的会议室里,一场持续四小时的内部会议刚刚结束。 屏幕上展示着最新数据:他们的AI模型Gemini用户已达4.5亿,云服务年收入突破500亿美元,自研的TPU芯片正成为全球AI算力的核心之一。 但会议室里的气氛并不轻松——十年前,就是在这样的技术优势下,他们发明了Transformer,却让OpenAI和Anthropic从自己的实验室里"走"了出去。 一、从微厨房到核心引擎(2000-2007) 一切的起点,藏在Google早期的微厨房里。 2001年的某个午餐时间,工程师George Herrick和刚入职的Noam Shazeer聊起一个想法:"如果能压缩信息,就等于理解信息。"当时没人在意这个闲聊,直到他们决定用整个周末验证这个猜想。 在那个"人人都能尝试新想法"的时期,Sanjay Ghemawat——Google最顶尖的工程师之一——只说了一句"我觉得这很酷",就给了他们坚持的底气。他们花三个月搭建了一个基于互联网文本的概率模型,能预测下一个词出现的概率。这个被命名为PHIL的系统,不仅成了搜索"你是不是要找"的拼写纠正功能,还在2003年被Jeff Dean改造成AdSense的核心——那个让Google广告收入暴涨的系统,至今仍在创造巨额财富。 二、AI黄金十年(2007-2017) 2007年,Google翻译的首席架构师Franz Och带着一个"12小时翻译一个句子"的项目找到Jeff Dean。三天后,Dean用并行计算技术将时间压缩到100毫秒——这就是深度学习在产品中的首次惊艳亮相。 与此同时,斯坦福AI实验室的Sebastian Thrun被Larry Page"收购"进Google。他带来的不仅是AI教授团队,还有两个未来的关键人物:后来OpenAI的Sam Altman和Meta的Chris Cox。2011年,Andrew Ng、Jeff Dean和Greg Corrado启动了"Google Brain"项目,用16000个CPU核心在YouTube视频帧上训练出能"认出猫"的神经网络。当这个结果在全员大会上展示时,所有人都意识到:"AI时代来了。" 2012年,AlexNet在ImageNet竞赛中掀起深度学习革命,而Google则用5.5亿美元收购了DeepMind。这家由Demis Hassabis创办的公司,后来用AlphaGo让世界见证了AI在围棋领域的突破。 三、Transformer:改变世界的"猫论文"(2017) 2017年,Google Brain的八人团队发表了《Attention Is All You Need》。这篇论文用"注意力机制"彻底改写了语言模型的历史,成为GPT、LLaMA等一切大模型的基础。但当时的Google内部,对此的反应更像是"这是下一个技术迭代"——没人预料到,这会成为OpenAI崛起的直接导火索。 论文的主要作者Noam Shazeer曾向领导层提议:"我们应该用Transformer重构整个搜索系统",但被以"安全风险"为由搁置。更讽刺的是,他们的实验模型需要五轮对话才能继续,被内部戏称为"五轮机器人"。 四、ChatGPT的惊雷(2022) 2022年底,当ChatGPT以"史上最快达到1亿用户"的速度引爆全球时,Google才真正意识到危机。Sundar Pichai立即启动"Code Red"计划——全力追赶。 2023年,Google推出Bard,却因一个事实错误导致股价单日暴跌8%。直到2024年,整合了DeepMind和Brain的Gemini 1.5发布,拥有100万token上下文窗口,才算真正与GPT-4分庭抗礼。 五、创新者的困境 今天的Google拥有顶级模型、自研芯片、庞大云服务和全球最大的搜索流量,但依然面临抉择:是全力押注AI,还是保护每年数百亿美元的搜索广告收入? 内部有人说:"Google就像一个手握核武器的国家,却不敢轻易开火。"他们担心激进投入会动摇根基,又害怕保守会错失未来。但历史往往证明,真正的巨头会在危机中找到破局点——就像当年AdSense和YouTube的诞生。 六、未来的十字路口 Google正以"快速但不鲁莽"的节奏推进:统一AI团队、加速模型迭代、探索新商业模式。Gemini已整合进搜索、云服务和企业应用,甚至开始测试自动驾驶的AI决策系统。 但AI的战争才刚刚开始。OpenAI的GPT-5、Anthropic的Claude 3、微软的Copilot 4,以及无数创业公司,都在争夺下一个万亿市场。Google能否用它的全栈优势,在这场"AI搜索"的战役中重新定义自己? 25年过去,从微厨房的一个想法到如今的AI巨头,Google的故事仍在继续。或许正如Jeff Dean常说的:"真正的创新,往往藏在没人看好的角落。"而这一次,他们能否抓住那个改变未来的"角落"?答案,将在未来五年揭晓。
AIGCLINK
7个月前
这两天闹的沸沸扬扬的朱啸虎唱衰具身智能的言论部分认同: 1. 当前具身智能领域大都还在走传统的路线,犹如2023年之前AI1.0时代的NLP和CV路线,后来transformer出现后将原先语言和视觉路线干废。具身智能也需要经历一次这样的临界点,当前还处于1.0时代,未来VLA模型成熟后,必然会将门槛极大的降低下来,泛化性能增强。 2.当前国内的大多数具身智能公司,很多都是用国外开源的路线二开改来的没啥太强的门槛,泛化能力很差,包括头部几家机器人公司也是如此,这种路线不会持久,犹如元宇宙时代的数字人公司的性质。 3.VLA模型临界点过了之后,ROS和VLA模型协同后,那么整个具身智能领域会进入2.0新的阶段,就像数字人公司在大模型公司加持后,产生了更强的价值。 4.当前市面上的,具身智能公司有场景的公司微乎其微,因为泛化能力不行,针对场景的落地成本极高,大都需要定制,只有VlA成熟后,才能实现场景落地大爆发。 5.VLA模型上gemini和figure公司都弄了自己的VLA模型,国内智元说自己有,技术路线和商业路线不清晰,泡沫说实话太高,这点我认可朱啸虎。 6.至于大家会反驳宇树科技营收好,貌似很多人或者公司买就是为了拍视频装逼pr吧,不是实用性的消费,不进消费场景实际解决问题注定走不远。 #vla #具身智能