时政
财经
科技
登录
#Gemini2.5Pro
关注
凡人小北
1周前
Gemini 2.5 Pro 发布好几周了,技术的底裤都被扒得稀烂了,报告才姗姗来迟。 我看完技术报告,几件事值得聊聊。 1️⃣现在大家都喜欢玩矩阵,模型发布也不例外 G哥也不免俗,精心设计了一套产品矩阵,满足不同场景的需求,不展开了,就是想先吐槽一下。 2️⃣Gemini 能力在 G 哥家底的支撑下开始快速跃迁 Gemini 2.5 家族之所以能够展现出前所未有的能力,我觉得核心在于 Google DeepMind 在模型架构、训练方法和硬件基础设施上的一系列协同创新。 一次完整的AI 作为系统工程的演化,着实精彩,很久没从大模型的技术报告里感受到如此的畅快淋漓了。 MoE 架构带来稀疏激活下的巨大模型容量,TPUv5p 提供算力基础,而 RL*F 后训练与思考机制让这些底层潜力被转化为真正对用户有价值的能力释放。 一起来看下这套组合拳的关键点: 1. MoE + TPUv5p + RL*F + AI 批评家 除了大家熟悉的 MoE 架构和自家硬件 TPUv5p,Google 提出了一个新的训练阶段策略——RL*F(Reinforcement Learning from AI Feedback)。最大亮点是引入“AI Critic”角色,由 AI 自我反思、提出改进建议,进一步增强答案质量,这点也是随着模型能力增强自然而然演化出来的一个方案,在做智能体的时候值得学习。 2. 思考模型依旧是大卖点 现在谁都说有 thinking,我现在看到 thinking 跟电梯广告似的,严重过敏。但 thinking 确确实实改变了 AI 生成的节奏:先理解,再规划,再生成。 3. 思考预算是 AI 走向服务化的关键机制 AI 的推理能力终于可以计价了。以前模型的聪明程度是内建的,现在是你愿意花多少钱让它多想几步。这带来了更细颗粒度、更有 ROI 意识的 AI 使用模式。 我预计在接下来一段时间内会一直存在的一个解决方案,根据任务复杂度动态增加思考深度。 AI 应用怎么做到能力可控、成本可控着实得认真学习一下,这也是 prompt 工程的一部分了,所以 Prompt 还是很重要,致敬李彦宏。 4. MoE 架构是思考机制可落地的核心 Google 勇于扯下遮羞布,我就是MoE。 如果在一个稠密模型上跑几十轮思考,每轮都全参数激活,那成本是灾难性的。但 MoE 架构只激活一小部分专家网络,让深度推理的边际成本变得可控,这也是 Google 敢免费、敢降价的底气。 这一整套机制下来,打通了算力、架构、训练策略和行为能力的完整链路。所以如果你是工程出身,应该会感到异常兴奋。 3️⃣三大能力融合,正在重塑 AI 的边界 Gemini 2.5 的突破并不体现在单点性能,而在于能力协同后的系统能力跃迁。这三点其实大家都知道了: 1. 超长上下文:模型从金鱼缸升级成汪洋大海了 早期大模型像一只生活在金鱼缸里的金鱼,这个窗口直接推到百万级,实验中甚至达到了 200 万 tokens。 但报告也坦率承认:有长上下文 ≠ 会用长上下文。 它里面说了个例子:“宝可梦”和“巨石谜题”,案例非常关键: 信息检索很强:能从 46 分钟视频中找出只出现 1 秒的事件;能用工具解开迷宫谜题。 然而,在需要进行长期的、多步骤的生成式推理时,模型暴露了局限性。当上下文历史记录显著超长后,开始出现重复之前行为的倾向,陷入循环,难以维持长期的任务一致性 。 揭示了这个长期存在的问题: 检索长上下文中的信息,与能够有效地利用长上下文进行持续的、创造性的规划和行动,是两种不同层级的挑战。前者好比在巨大的图书馆里找到一本书,而后者则好比读完图书馆里所有的书后写一部新的鸿篇巨著。 但Gemini 2.5 在长上下文处理上依然取得了业界领先的性能。 2. 原生多模态 如果上下文窗口解决了 AI 的“记忆广度”,那么多模态就是打开它的“感官维度”。 Gemini 2.5 全部支持原生多模态了,视频生成交互式应用、视频生成动画、音频网友们估计都玩烂了。我想提下音频能力的演进。 在音频方面,Gemini 2.5 也完成了从单向理解到双向交互的闭环 。Gemini 1.5 已经具备了强大的音频理解能力,可以对音频文件进行转录、翻译、摘要和问答。Gemini 2.5 则在此基础上,重点训练了音频生成能力,包括高质量的文本到语音(Text-to-Speech, TTS)和原生的对话式音频输出。 模型能够实现低延迟的流式对话,让交互体验更自然、更流畅。更重要的是,它能结合思考能力、情感理解和工具使用,在对话中理解并回应用户的语气,甚至忽略背景噪音的干扰,使人机语音交互向着更接近真人交流的方向迈进了一大步 。 值得一提的是 Gemini 2.5 预览版 TTS 可以生成多位说话者的语音,跟 NotebookLM 一样可以创建播客。 4. 智能体能力 Google 给出了三个非常关键的智能体范式: Deep Research、Gemini Plays Pokémon、Project Astra,从被动回答,到主动执行,再到能实时理解现实世界并行动,这就是智能体的演化路径。 4️⃣不光 demo 牛,benchmark 也硬刚 这部分不展开聊了,现在对 SOTA 有点脱敏了,一句话:很厉害,也很分化。 Aider Polyglot(多语言真实代码编辑):82.2%,大幅领先 GPT-4o(30.7%)。 GPQA(研究生级问):在 Diamond 难度下拿到 86.4%,远超 GPT-4.5(71.4%),推理能力很猛。 MMMU(跨学科多模态理解):得分 84%,比 GPT-4o 高 15 个点,展示了多模态优势。 Video-MME(视频理解能力):SOTA 成绩 84.8%,稳稳领先 GPT 系列。 最后呼应一下开头,你能看到,不是一个靠调教出来的聪明模型,而是 Google 把 AI 当成系统工程在做: 有基础设施协同(TPU、MoE); 有思维机制框架(RL*F + 思考预算); 有场景能力突破(长上下文、多模态、Agent); 有实际 benchmark 背书(开发、推理、感知全面领先); Google 正在告诉我们:下一代 AI,一定能被构建、能被调用、能被服务化的,这篇报告给圈子里打了个样,这才是 AI 从大脑到体系的进化,这才是 AI 该有的样子。 我 G 哥威武。
Google Gemini 2.5发布引发AI模型性价比热议· 21 条信息
AI编程:Gemini领跑,协作创新涌现· 189 条信息
#Gemini2.5Pro
#技术报告
#产品矩阵
#谷歌
#人工智能
分享
评论 0
0
Oasis Feng
2周前
Google AI Pro 的 Gemini 2.5 Pro 和免费套餐的 2.5 Pro 有啥区别吗? 为啥不让免费套餐的用户继续一个 Pro 套餐用户分享的 Gemini 2.5 Pro 会话?
#GoogleAI
#Gemini2.5Pro
#Pro套餐
#免费套餐
#会话分享
分享
评论 0
0
Jesse Lau 遁一子
3周前
Google推出了最新的 Gemini 2.5 Pro(06 月 5 日版)更新,多项指标 > openai o3 并计划将其作为长期稳定版本。主要亮点包括: - 在 HLE、Aider 和 GPQA 上达到 SOTA(最先进水平) - 新增支持“思维预算”功能 - 成本不变,性能表现处于最优解集合 - 有效修复了 3 月 25 日版本中的性能回退问题
#Google
#Gemini2.5Pro
#AI更新
#SOTA
#HLE
#Aider
#GPQA
#思维预算
#性能优化
#版本更新
分享
评论 0
0
Arvin Xu
4周前
让 Gemini 2.5 Pro 读了下“互联网女皇”的 340 页 AI 趋势报告,感觉现在的 LobeChat 是真的可以发挥出来这些顶尖模型的智能了 🤔 连内容的页码都能标的清清楚楚
#Gemini2.5Pro
#互联网女皇
#AI趋势报告
#LobeChat
#顶尖模型
分享
评论 0
0
Lex Tang
1个月前
Windsurf 里用 Gemini 2.5 Pro 改动到程序功能,他会自己用 XcodeBuildMCP 尝试跑测试用例,根据 CLI 报错纠正语法,发现测挂了,自己去修好了
#windsurf
#Gemini2.5Pro
#XcodeBuildMCP
#CLI
#程序测试
#语法纠正
分享
评论 0
0
Yachen Liu
2个月前
Gemini 2.5 Pro 试了下看起来不错,但是在这么多大厂小厂 AI 产品的 UI/UX 中,Google 真是丑到断档的存在。
#Gemini2.5Pro
#AI产品
#谷歌UI设计
分享
评论 0
0
LotusDecoder
2个月前
今天简单体验了下新版 Gemini 2.5 Pro Deep Research ,在某些方面是优于 chatgpt Deep Research 了。 例如,课题是查询企业的股权穿透和每一层的实际控制人。 同一套提示词和要求下,Gemini 会给出每一层公司的全称,管理层有哪些职位和姓名,CEO是谁,董事长是谁。哪位最可能是第一负责人。最后还总结成一张表格。 chatgpt 有些划水,一段话列出来有公司名,但管理层写一些,落一些。不如 Gemini 全面。
#Gemini2.5Pro
#ChatGPT
#股权穿透
#企业管理
分享
评论 0
0
wwwyesterday
3个月前
之前夸了 gemini 2.5 pro 写代码可以,今天继续评一个。 vibe coding 用户或者纯靠 AI 忙着做产品,做独立开发的就算了,继续使用 sonnet 3.5 或者 3.7 吧,做做卡片做点小玩意儿又快又准。 gemini 2.5 pro 不适合下面两种状态: 1. 我啥都不会,靠 AI 你了。 2. 我啥都会,我只需要你干杂活,我让你怎么写你怎么写。 第一个可能好理解,第二个为什么看起来有点奇怪。我们不是在网络上经常倡导掌握一点编程知识,然后让 AI 来做脏活累活,我们做架构设计就可以了吗? 因为 gemini 2.5 pro 这货有点不一样。 前面那个模式,你要的是个忠实的打手,但 gemini 2.5 pro,这货有点自己的想法。 指令遵循上并不那么完美,隐约能捕捉到一些训练语料里 over thinking 的痕迹。 应该是使用了大量的合成数据,在生成数据的时候,提示词里显然有非常明确的要求,然后 AI 就大量创建了注释。如果你稍微试一下,就会发现这货在代码里的注释简直写的丧心病狂。 写的废话可多了。 屁大点事都给你解析成屁的起源屁的发展屁的未来。 带来的问题是什么。当然问题和好处是相伴相生的。 代码的阅读性一塌糊涂,密密麻麻不分轻重主次的注释占满了整个屏幕。 注意不是说注释写的多不好,而是不分主次,什么都写,像极了领导讲话和你每周在公司写的周报。 我就算提示词里要求了,过不了几步,就又老毛病犯了狂吐注释。当然,由此也可以窥见它的训练的语料有多疯狂。 好处是什么,充足详细的说明,让它在处理长逻辑的时候,基本不会忘了到底要干什么,基本可以控制在主线上走。 我会认为它是当下非常合适的 copilot 类 coding 工具,而不是开始往 agent 方向发展的那一类。 在 roocode 里测试的时候能明确感觉到这一点,如果你日常还是 copilot 模式为主,你现在真的应该去试试。
#Gemini2.5Pro
#Sonnet3.5
#Sonnet3.7
#AI编程助手
#代码评测
#独立开发
#VibeCoding
分享
评论 0
0
handongxue
3个月前
Gemini 2.5 Pro 和 GPT-4o-image 免费用户都可以试用了。
#Gemini2.5Pro
#GPT4o-image
#免费试用
分享
评论 0
0
Jesse Lau
3个月前
OpenAI的图片编辑娱乐性十足,所以X上火爆度远远高于同在今天发布的Gemini 2.5 Pro 不过2.5 Pro确实实实在在的改变了我的工作流 现在工作流大多数都切换到gemini了 1. 关键字研究 - gemini 2.5 pro, Claude, GPT 4.5 , grok 越多越好 2. django编程 - gemini 2.5 Pro 3. 翻译到多语言 - gemini 2.5 pro 4. deep research - gemini DR + Gemini 2.5 pro 扩展 5. 中长篇小说 - gemini 2.5 pro + Claude改写 6. MT5编程 - Claude,还没测试过gemini 6. 图片 - openai 7. 快速新闻 - grok
#OpenAI
#图片编辑
#X平台
#Gemini2.5Pro
#工作流
#关键字研究
#django编程
#翻译
#Claude
#GPT4.5
#Grok
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞