ginobefun
1个月前
推荐阅读 20250618 ① 🤖 Andrej Karpathy 万字演讲精华:软件 3.0 时代来临 - 详解软件 3.0 概念:继传统代码 (1.0) 和神经网络 (2.0) 之后,“提示词即程序” (Prompts as Programs) 成为新范式。 - 提出 LLM 心理学两大问题:智能水平参差不齐 (Jagged Intelligence) 与顺行性遗忘症 (Anterograde Amnesia)。 - 强调“部分自主” (Partial Autonomy) 是关键,通过“自主性滑块” (Autonomy Sliders) 平衡人机协作,跨越 Demo 与产品之间的鸿沟。 - 呼吁开发者“为智能体而构建” (Build for Agents),未来的软件需要同时服务于人类、API 和智能体。 📖 详细: ② 💻 揭秘 Google Gemini 顶级 AI 编码模型诞生记: - 反思传统标准:深入探讨为何像“竞赛编程”这类 benchmark,并不能真实反映开发者在大型代码库中的实际工作流与需求。 - 成功的核心要素:揭示顶尖编码模型成功的关键,不仅在于高质量的代码数据,更在于其背后强大的通用推理能力、世界知识以及百万级长上下文窗口的支撑。 - 未来方向:讨论 AI 编码工具的未来,将从代码补全进化到更复杂的代码库级别任务,并通过 Agentic 的方式与开发者进行更深度的协作。 📖 原始视频: 中文克隆播客: ③ 🤖 深度解读 OpenAI 官方 AI 智能体构建指南: - 三大核心基石:系统拆解智能体的核心组件——模型 (Model) 是大脑,工具 (Tools) 是手脚,指令 (Instructions) 是行为准则,三者分离的设计是构建灵活、可维护智能体的关键。 - 渐进式架构:倡导从简单的单一智能体起步,在验证价值后,根据需求演进到多智能体编排模式,如中心化的“主管模式” (Manager Pattern) 或分布式的“去中心化模式” (Decentralized Pattern)。 - 安全与信任:强调必须内置“分层防御”安全护栏(如 PII 过滤、风险评估)和清晰的“人工监督” (Human-in-the-Loop, HITL) 机制,确保智能体在关键时刻安全可控。 📖 详细: PDF 地址: ④ 🤖 Google Gemini 2.5 家族迎来全面更新: - 全新成员登场:推出 Gemini 2.5 Flash-Lite 预览版,这是该系列中成本和延迟最低的模型,专为分类、摘要等大规模高吞吐量任务而设计。 - Pro 与 Flash 进入稳定期:Gemini 2.5 Pro 和 Gemini 2.5 Flash 现已正式通用 (GA),为开发者在生产环境中构建应用提供了更高的稳定性和可靠性。 - Flash 定价调整:Gemini 2.5 Flash 更新了定价,取消了“思考”与“非思考”的价格差异。新的价格为输入 $0.30/百万 Token,输出 $2.50/百万 Token。 - 全系具备“思考”能力:所有 2.5 模型都具备推理能力,允许开发者通过控制“思考预算”来平衡模型的响应速度和准确性。 📖 详细: ⑤ 🚨 深度复盘:谷歌云 6.12 全球中断事件 - 根本原因: 核心组件 Service Control 中一个未受功能开关保护的新功能,因一个空指针 bug 被错误的配置数据触发,并通过 Spanner 数据库被快速同步至全球。 - 关键失误 1 - 缺乏功能开关: 新代码在未受控的情况下被激活,导致 bug 一旦触发就无法被隔离,造成了全球性的影响。 - 关键失误 2 - 恢复与沟通: us-central-1 区域因“羊群效应”恢复缓慢;官方状态页本身也因托管在故障设施上而中断,导致信息真空。 - 核心教训: 展示了在大型分布式系统中,一个微小的代码缺陷如何通过自动化流程被放大为全球性灾D难,强调了纵深防御和基础工程纪律的重要性。 📖 详细:
凡人小北
1个月前
Gemini 2.5 Pro 发布好几周了,技术的底裤都被扒得稀烂了,报告才姗姗来迟。 我看完技术报告,几件事值得聊聊。 1️⃣现在大家都喜欢玩矩阵,模型发布也不例外 G哥也不免俗,精心设计了一套产品矩阵,满足不同场景的需求,不展开了,就是想先吐槽一下。 2️⃣Gemini 能力在 G 哥家底的支撑下开始快速跃迁 Gemini 2.5 家族之所以能够展现出前所未有的能力,我觉得核心在于 Google DeepMind 在模型架构、训练方法和硬件基础设施上的一系列协同创新。 一次完整的AI 作为系统工程的演化,着实精彩,很久没从大模型的技术报告里感受到如此的畅快淋漓了。 MoE 架构带来稀疏激活下的巨大模型容量,TPUv5p 提供算力基础,而 RL*F 后训练与思考机制让这些底层潜力被转化为真正对用户有价值的能力释放。 一起来看下这套组合拳的关键点: 1. MoE + TPUv5p + RL*F + AI 批评家 除了大家熟悉的 MoE 架构和自家硬件 TPUv5p,Google 提出了一个新的训练阶段策略——RL*F(Reinforcement Learning from AI Feedback)。最大亮点是引入“AI Critic”角色,由 AI 自我反思、提出改进建议,进一步增强答案质量,这点也是随着模型能力增强自然而然演化出来的一个方案,在做智能体的时候值得学习。 2. 思考模型依旧是大卖点 现在谁都说有 thinking,我现在看到 thinking 跟电梯广告似的,严重过敏。但 thinking 确确实实改变了 AI 生成的节奏:先理解,再规划,再生成。 3. 思考预算是 AI 走向服务化的关键机制 AI 的推理能力终于可以计价了。以前模型的聪明程度是内建的,现在是你愿意花多少钱让它多想几步。这带来了更细颗粒度、更有 ROI 意识的 AI 使用模式。 我预计在接下来一段时间内会一直存在的一个解决方案,根据任务复杂度动态增加思考深度。 AI 应用怎么做到能力可控、成本可控着实得认真学习一下,这也是 prompt 工程的一部分了,所以 Prompt 还是很重要,致敬李彦宏。 4. MoE 架构是思考机制可落地的核心 Google 勇于扯下遮羞布,我就是MoE。 如果在一个稠密模型上跑几十轮思考,每轮都全参数激活,那成本是灾难性的。但 MoE 架构只激活一小部分专家网络,让深度推理的边际成本变得可控,这也是 Google 敢免费、敢降价的底气。 这一整套机制下来,打通了算力、架构、训练策略和行为能力的完整链路。所以如果你是工程出身,应该会感到异常兴奋。 3️⃣三大能力融合,正在重塑 AI 的边界 Gemini 2.5 的突破并不体现在单点性能,而在于能力协同后的系统能力跃迁。这三点其实大家都知道了: 1. 超长上下文:模型从金鱼缸升级成汪洋大海了 早期大模型像一只生活在金鱼缸里的金鱼,这个窗口直接推到百万级,实验中甚至达到了 200 万 tokens。 但报告也坦率承认:有长上下文 ≠ 会用长上下文。 它里面说了个例子:“宝可梦”和“巨石谜题”,案例非常关键: 信息检索很强:能从 46 分钟视频中找出只出现 1 秒的事件;能用工具解开迷宫谜题。 然而,在需要进行长期的、多步骤的生成式推理时,模型暴露了局限性。当上下文历史记录显著超长后,开始出现重复之前行为的倾向,陷入循环,难以维持长期的任务一致性 。 揭示了这个长期存在的问题: 检索长上下文中的信息,与能够有效地利用长上下文进行持续的、创造性的规划和行动,是两种不同层级的挑战。前者好比在巨大的图书馆里找到一本书,而后者则好比读完图书馆里所有的书后写一部新的鸿篇巨著。 但Gemini 2.5 在长上下文处理上依然取得了业界领先的性能。 2. 原生多模态 如果上下文窗口解决了 AI 的“记忆广度”,那么多模态就是打开它的“感官维度”。 Gemini 2.5 全部支持原生多模态了,视频生成交互式应用、视频生成动画、音频网友们估计都玩烂了。我想提下音频能力的演进。 在音频方面,Gemini 2.5 也完成了从单向理解到双向交互的闭环 。Gemini 1.5 已经具备了强大的音频理解能力,可以对音频文件进行转录、翻译、摘要和问答。Gemini 2.5 则在此基础上,重点训练了音频生成能力,包括高质量的文本到语音(Text-to-Speech, TTS)和原生的对话式音频输出。 模型能够实现低延迟的流式对话,让交互体验更自然、更流畅。更重要的是,它能结合思考能力、情感理解和工具使用,在对话中理解并回应用户的语气,甚至忽略背景噪音的干扰,使人机语音交互向着更接近真人交流的方向迈进了一大步 。 值得一提的是 Gemini 2.5 预览版 TTS 可以生成多位说话者的语音,跟 NotebookLM 一样可以创建播客。 4. 智能体能力 Google 给出了三个非常关键的智能体范式: Deep Research、Gemini Plays Pokémon、Project Astra,从被动回答,到主动执行,再到能实时理解现实世界并行动,这就是智能体的演化路径。 4️⃣不光 demo 牛,benchmark 也硬刚 这部分不展开聊了,现在对 SOTA 有点脱敏了,一句话:很厉害,也很分化。 Aider Polyglot(多语言真实代码编辑):82.2%,大幅领先 GPT-4o(30.7%)。 GPQA(研究生级问):在 Diamond 难度下拿到 86.4%,远超 GPT-4.5(71.4%),推理能力很猛。 MMMU(跨学科多模态理解):得分 84%,比 GPT-4o 高 15 个点,展示了多模态优势。 Video-MME(视频理解能力):SOTA 成绩 84.8%,稳稳领先 GPT 系列。 最后呼应一下开头,你能看到,不是一个靠调教出来的聪明模型,而是 Google 把 AI 当成系统工程在做: 有基础设施协同(TPU、MoE); 有思维机制框架(RL*F + 思考预算); 有场景能力突破(长上下文、多模态、Agent); 有实际 benchmark 背书(开发、推理、感知全面领先); Google 正在告诉我们:下一代 AI,一定能被构建、能被调用、能被服务化的,这篇报告给圈子里打了个样,这才是 AI 从大脑到体系的进化,这才是 AI 该有的样子。 我 G 哥威武。