2025-06-19 03:07:06
Gemini 2.5 Pro 发布好几周了,技术的底裤都被扒得稀烂了,报告才姗姗来迟。 我看完技术报告,几件事值得聊聊。 1️⃣现在大家都喜欢玩矩阵,模型发布也不例外 G哥也不免俗,精心设计了一套产品矩阵,满足不同场景的需求,不展开了,就是想先吐槽一下。 2️⃣Gemini 能力在 G 哥家底的支撑下开始快速跃迁 Gemini 2.5 家族之所以能够展现出前所未有的能力,我觉得核心在于 Google DeepMind 在模型架构、训练方法和硬件基础设施上的一系列协同创新。 一次完整的AI 作为系统工程的演化,着实精彩,很久没从大模型的技术报告里感受到如此的畅快淋漓了。 MoE 架构带来稀疏激活下的巨大模型容量,TPUv5p 提供算力基础,而 RL*F 后训练与思考机制让这些底层潜力被转化为真正对用户有价值的能力释放。 一起来看下这套组合拳的关键点: 1. MoE + TPUv5p + RL*F + AI 批评家 除了大家熟悉的 MoE 架构和自家硬件 TPUv5p,Google 提出了一个新的训练阶段策略——RL*F(Reinforcement Learning from AI Feedback)。最大亮点是引入“AI Critic”角色,由 AI 自我反思、提出改进建议,进一步增强答案质量,这点也是随着模型能力增强自然而然演化出来的一个方案,在做智能体的时候值得学习。 2. 思考模型依旧是大卖点 现在谁都说有 thinking,我现在看到 thinking 跟电梯广告似的,严重过敏。但 thinking 确确实实改变了 AI 生成的节奏:先理解,再规划,再生成。 3. 思考预算是 AI 走向服务化的关键机制 AI 的推理能力终于可以计价了。以前模型的聪明程度是内建的,现在是你愿意花多少钱让它多想几步。这带来了更细颗粒度、更有 ROI 意识的 AI 使用模式。 我预计在接下来一段时间内会一直存在的一个解决方案,根据任务复杂度动态增加思考深度。 AI 应用怎么做到能力可控、成本可控着实得认真学习一下,这也是 prompt 工程的一部分了,所以 Prompt 还是很重要,致敬李彦宏。 4. MoE 架构是思考机制可落地的核心 Google 勇于扯下遮羞布,我就是MoE。 如果在一个稠密模型上跑几十轮思考,每轮都全参数激活,那成本是灾难性的。但 MoE 架构只激活一小部分专家网络,让深度推理的边际成本变得可控,这也是 Google 敢免费、敢降价的底气。 这一整套机制下来,打通了算力、架构、训练策略和行为能力的完整链路。所以如果你是工程出身,应该会感到异常兴奋。 3️⃣三大能力融合,正在重塑 AI 的边界 Gemini 2.5 的突破并不体现在单点性能,而在于能力协同后的系统能力跃迁。这三点其实大家都知道了: 1. 超长上下文:模型从金鱼缸升级成汪洋大海了 早期大模型像一只生活在金鱼缸里的金鱼,这个窗口直接推到百万级,实验中甚至达到了 200 万 tokens。 但报告也坦率承认:有长上下文 ≠ 会用长上下文。 它里面说了个例子:“宝可梦”和“巨石谜题”,案例非常关键: 信息检索很强:能从 46 分钟视频中找出只出现 1 秒的事件;能用工具解开迷宫谜题。 然而,在需要进行长期的、多步骤的生成式推理时,模型暴露了局限性。当上下文历史记录显著超长后,开始出现重复之前行为的倾向,陷入循环,难以维持长期的任务一致性 。 揭示了这个长期存在的问题: 检索长上下文中的信息,与能够有效地利用长上下文进行持续的、创造性的规划和行动,是两种不同层级的挑战。前者好比在巨大的图书馆里找到一本书,而后者则好比读完图书馆里所有的书后写一部新的鸿篇巨著。 但Gemini 2.5 在长上下文处理上依然取得了业界领先的性能。 2. 原生多模态 如果上下文窗口解决了 AI 的“记忆广度”,那么多模态就是打开它的“感官维度”。 Gemini 2.5 全部支持原生多模态了,视频生成交互式应用、视频生成动画、音频网友们估计都玩烂了。我想提下音频能力的演进。 在音频方面,Gemini 2.5 也完成了从单向理解到双向交互的闭环 。Gemini 1.5 已经具备了强大的音频理解能力,可以对音频文件进行转录、翻译、摘要和问答。Gemini 2.5 则在此基础上,重点训练了音频生成能力,包括高质量的文本到语音(Text-to-Speech, TTS)和原生的对话式音频输出。 模型能够实现低延迟的流式对话,让交互体验更自然、更流畅。更重要的是,它能结合思考能力、情感理解和工具使用,在对话中理解并回应用户的语气,甚至忽略背景噪音的干扰,使人机语音交互向着更接近真人交流的方向迈进了一大步 。 值得一提的是 Gemini 2.5 预览版 TTS 可以生成多位说话者的语音,跟 NotebookLM 一样可以创建播客。 4. 智能体能力 Google 给出了三个非常关键的智能体范式: Deep Research、Gemini Plays Pokémon、Project Astra,从被动回答,到主动执行,再到能实时理解现实世界并行动,这就是智能体的演化路径。 4️⃣不光 demo 牛,benchmark 也硬刚 这部分不展开聊了,现在对 SOTA 有点脱敏了,一句话:很厉害,也很分化。 Aider Polyglot(多语言真实代码编辑):82.2%,大幅领先 GPT-4o(30.7%)。 GPQA(研究生级问):在 Diamond 难度下拿到 86.4%,远超 GPT-4.5(71.4%),推理能力很猛。 MMMU(跨学科多模态理解):得分 84%,比 GPT-4o 高 15 个点,展示了多模态优势。 Video-MME(视频理解能力):SOTA 成绩 84.8%,稳稳领先 GPT 系列。 最后呼应一下开头,你能看到,不是一个靠调教出来的聪明模型,而是 Google 把 AI 当成系统工程在做: 有基础设施协同(TPU、MoE); 有思维机制框架(RL*F + 思考预算); 有场景能力突破(长上下文、多模态、Agent); 有实际 benchmark 背书(开发、推理、感知全面领先); Google 正在告诉我们:下一代 AI,一定能被构建、能被调用、能被服务化的,这篇报告给圈子里打了个样,这才是 AI 从大脑到体系的进化,这才是 AI 该有的样子。 我 G 哥威武。
2025-06-19 03:07:06
2025-06-19 00:35:15