北京时间凌晨,OpenAI 为 Pro 用户上线了了一个新功能:ChatGPT Pulse 预览版,据说后续会扩展到 Plus 用户,最终面向所有人。 以前大模型都是问答,被动响应,这次的 Pulse 的核心是主动:不用提问,AI 会在你睡觉时自动做研究,早上以主题卡片的形式为用户推送一些个性化更新。 它能做什么呢? • 结合你和 ChatGPT 的聊天记录、反馈以及连接的应用(Gmail、Google 日历等),生成当天的精挑内容。 • 想去三亚旅行?它可能推天气、攻略、机票折扣。 • 提到了今天牙疼,会推送牙齿健康和相关医疗信息。 • 连接日历后还能草拟会议议程、提醒礼物、推荐出差餐厅。 • 连接 Gmail 后会帮助你总结邮件信息。 有趣的是,Pulse 是“可结束”的:每天一批精选内容,看完就结束,不诱导你无限刷屏。更新也是当天有效,除非你将其保存为对话或继续追问。 用户代价是什么呢?需要开放大量个人数据,比如聊天历史、邮件、日历,当然我们也可以只开放聊天记录,这些都需要用户手动点同意才行。 虽然 OpenAI 一直声称有多重安全过滤,但细节并不透明,隐私与信息茧房问题依然是值得关注的。 以前我们和 AI 聊完,它会主动寻找其他方向问用户是否还需要做点什么,现在更进一步:不仅整理信息,还能主动制定计划、总结邮件、根据聊天信息提供行动方案、关键时刻提醒等等。 这个模式如果反馈良好,很多大模型会跟进,人类会增加一个更聪明的信息入口。 前提是,你得一直在和这个 AI 聊天和问答。 这形成了另一种粘性,哪个模型你用的越久,你就越离不开它。是时候选择一个好模型一直用下去了。
池建强
1个月前
池建强
1个月前
Claude 这条路在中国企业这里彻底断掉了 9 月 5 日这一天,Anthropic 在官网发布了一则消息:立即停止 Claude 向中国资本控股企业提供服务。所谓“控股”,指的是持股比例超过 50% 的企业,这一政策覆盖的可不仅仅是大陆公司,事实上大陆公司本身也用不了。这个策略同时包括那些在境外注册,但有中国资本或股东背景的公司和组织。 目前看起来,Claude 这条路在中国企业这里彻底断掉了。 AI 的地缘政治 过去二十年,互联网科技产品大多强调“全球化”。硅谷的产品可以在北京、东京、柏林同时使用,哪怕偶尔有审查或功能阉割,底层的技术逻辑还是相通的。但到了 AI 时代,这条路越来越窄了。先是芯片,后是软件。 Anthropic 在公告中说,这项措施是为了“应对法律、监管与国家安全风险”。换句话说,AI 已经被当作战略资源。和石油、芯片一样,AI 模型不再是单纯的商业工具,早就被嵌入到大国博弈的棋盘里。 这一点在 GPT-4 之后已经很明显。美国政府把最先进的 AI 模型看作“国防资产”,严格控制其出口与使用范围。现在 Anthropic 的决定只是把这种控制明确落地到商业规则中:你是谁、你后面是谁,这决定了你能不能用 Claude。 有意思的是,Anthropic 并非只针对中国,公告里明确提到,这一政策同样适用于美国认定的“对手国家”,比如俄罗斯啊、伊朗啊、朝鲜等等。 blacklist,在这份名单上,中国的体量让事情变得敏感起来。 这件事让我们也看到另一层逻辑:这也是商业上的风险规避。Anthropic 不希望自家模型被用于可能引发地缘冲突、规避制裁或触及安全边界的场景。对于一家需要不断融资、依赖美国政府关系的公司来说,这个选择也不意外。 直接一点,这对于中国企业来说,意味着什么呢? 如果你是一家 AI 初创公司,哪怕是注册在新加坡、开曼群岛,只要背后有中国资本背景,无论是中国的 VC 还是大公司投资,都将无法继续使用 Claude 的服务。Anthropic 说的非常明白,这是为了避免中国企业通过设立海外子公司、购买第三方云服务来“曲线救国”。 比如字节的 IDE 工具 Trae,一个版本是国内版,只能用国内大模型,另一个是国际版,海外公司的版本,可以使用 GPT,Gemini,Claude,现在呢,我猜测至少是不能使用 Claude 了,包括我之前介绍的阿里 IDE Qoder,都是一样的策略。 1、国内开发者与 Claude 渐行渐远,想通过 API 调用或境外云服务接入,几乎没有可能。 2、Claude 代表了当下语言模型在编程、推理、长文本处理上的最强水平,尤其是编程能力,失去这个通道,我们需要加快国内模型追赶速度。某种角度,这是好事。 3、资本与创业环境会变化。投资人要考虑的,不仅是模型能力,还有合规风险。你投的这家公司,是不是有可能因为“用不了 Claude”而失去竞争力? 一道新的铁幕落下,倒也不算意外。 冷战时期,人类世界被铁幕分割成两部分。今天的 AI 行业,似乎也在形成新的铁幕。Claude 在那边,豆包、文心、通义、月之暗面在这边。模型的性能差异、训练语料差异、生态和市场差异,都会随之变得割裂,各自发展。 长远来看,这未必是坏事,正如当年的芯片产业,断供是痛苦的,但也是国产替代最直接的催化剂。 Anthropic 的这份公告,强化了某种意象:全球 AI 行业正在从“技术竞争”转向“地缘政治竞争”。AI 同样是国家安全、战略利益的一部分。 面对,继续向前走就好了。
池建强
1个月前
晕了,我喜欢的 AI 浏览器 Dia 被收购了。 刚看 X 刷到了让我震惊的消息:我常用的 AI 浏览器 Dia 的母公司被 Atlassian 公司以 6.1 亿美金现金收购了……收购了。据说 Dia 会独立发展,但我立刻感到了隐隐的担忧。 Atlassian 是一家澳大利亚的软件公司,总部位于悉尼,成立于 2002 年。创始人是 Mike Cannon-Brookes 和 Scott Farquhar,两位年轻的大学毕业生当时为了避免去大公司打工,贷款 1 万澳元开始创业。 公司最知名的产品是 Jira 和 Confluence:Jira 最初是一个缺陷跟踪工具,如今已经演变为广泛使用的项目管理和敏捷开发平台,支持 Scrum、Kanban 等方法,被全球的开发团队和企业用于任务跟踪、Bug 管理和项目协作。Confluence 是一个企业协作与知识管理工具,用于文档共享、团队协作和企业 Wiki。 除了这两款核心产品,Atlassian 还推出了 Trello、Bitbucket、Opsgenie 等工具,覆盖了团队协作、代码托管、事件响应等多个领域。 Atlassian 的商业模式主要是 自助式 SaaS 订阅,目前市值 40 多亿美金,不知道为啥收购 Dia 的公司。 创始人为什么要卖掉 The Browser Company ,猜测是投资方的压力,这公司做了这么久真是没赚几个钱,就看咔咔发布产品了。 我猜测 Atlassian 买一个 AI 产品公司可能更多看重团队的 AI 产品能力。 只希望 Dia 能独立发展就好了,AI 浏览器这个市场我还是挺看好的,这个产品的功能和品味很对我胃口,不行咱也做一个吧。
池建强
1个月前
这事你还没注意呢,巨无霸已经完成“反超时刻” 过去两年世界的主旋律就是 AI 行业,AI 行业的主旋律和明星公司自然是 OpenAI 的 GPT 了。无论是模型能力,发布节奏,还是产品化速度,品牌深入人心的影响力,GPT 一枝独秀,虽然说前三名是 OpenAI、Google 和 Anthropic,对应的模型就是 GTP、Gemini 和 Claude,但大家普遍的心智还是,二三名和第一,有代际差距,至少是落后几个月的身位。 我记得 AI 搜索流行的时候,国外同行都有共识,这事对 Google 影响最大,当 Perplexity 宣布用 AI 搜索颠覆 Google 的时候,这个巨无霸是否在瑟瑟发抖呢? 看起来并没有。 DeepMind 作为 Google 内部最具创新力的团队之一,很早就在基础模型、推理能力、跨模态理解等领域深耕多年。许多技术突破和算法优化,悄摸早就用在 Google 的各条产品线上了,只是大多数人并未察觉。 等到 Gemini 2.5 Flash Image 发布的那一刻,才让人意识到,Google 并不是慢了一步,而是在等待一个合适的时机,这个时机甚至不是自己创造的或者 Google 营销的,而是产品自身带来的引爆点。 DeepMind 的积累和 Google 的产品能力,最终在这场 AI 的竞赛中实现了“暗中提速”,也让外界对 Google 的判断出现了偏差。 如果说之前大家还在讨论“谁的模型跑得更快”,那么现在,Google 给出的答案是:不止快,更聪明。 并且 Nano Banana(Gemini 2.5 Flash Image的模型代号)的速度真心不慢。上周只是生图的速度快,当时我还觉得这质量不如 GPT 啊。今天试了一下,生成的图片质量已经不分伯仲了: Google DeepMind 视觉生成产品负责人 Nicole Brichtova 在谈到这一代模型时,用了“质的飞跃”来形容。 她认为,不论是图像生成,还是后续的编辑,Gemini 2.5 Flash Image 已经达到了业内的新高度。而这确实是用户亲身体验后才能感受到的震撼。 1、一致性与自然交互 这代模型最令人惊讶的地方,在于它解决了长期困扰生成式 AI 的“连续性”问题。 以往的图像生成工具,如果你要求它“换个角度”或者“换件衣服”,往往会生成一张完全不同的人物,就像在描述另外一个角色。 而 Gemini 2.5 Flash Image 的特性是:它能在多轮自然语言交互中保持角色高度一致,这周我又试了试,一致性正在变得越来越好。 你可以换动作、换服装、甚至换场景,但画面里的那个人,依然是“同一个人”。这对于创意产业、品牌设计乃至虚拟 IP 的构建,都是革命性的。 更妙的是,这种交互方式不再是“冷冰冰的参数和命令”,而是接近人类自然对话的体验。模糊的表达、自由的提示,甚至一句极简的“再来一张”,模型都能理解并产出符合预期的结果。 2、从“生图”到“对话” 回想一下上周,我还觉得 nano banana 这样的模型和 GPT 之间的差距明显,而短短一周后,差距就很难分辨了。 模型的进化速度,就像火箭一样,一次次把人类的想象推向更远的地方。 过去我们谈 AI 图像生成,用的是“生图”这个词,意味着它像摄影一样,一次性生成一张图。现在,Gemini 2.5 Flash Image 的体验,更接近一种“对话”。 你和它说话,它理解上下文,持续生成;你提出修改,它保留一致性,灵活调整。模型的“聪明程度”第一次让人觉得,它不仅仅是一个工具,而更像一个合作者。 Nicole Brichtova 在采访时说过另一句话:“我们现在看到的,只是这些模型潜力的冰山一角。” 是图像生成、角色一致性和自然语言驱动的突破,但在这些能力背后,真正令人期待的是 AI 原生的交互范式。当模型具备了跨模态的语义理解能力,它就不再局限于“输入-输出”,而是可以持续陪伴用户,完成更复杂的创作任务。这可能是一次范式转移。 在 AI 时代有个和以前非常不一样的现象:纯工具没什么护城河,留给创业者的时间差非常小。很多创业公司基于之前大模型做出来的工程化产品,一旦新模型出来,你的工程化能力,直接就被新模型碾压了,这是个巨大的创业鸿沟。 比如你之前基于 GPT 的 API 搞了很多工程化的算法保证角色一致性做了一个绘图工具,现在 Nano Banana 出来,你的产品立刻就会被抛弃了。用户不会有忠诚度的。 但剪映这样的工具肯定不会抛弃,对吧?因为剪映做的工程化,大模型是做不了或不愿意做的。 如何重新思考并建立自己的用户群和核心机制,这是创业公司必须要考虑的事。 Gemini 2.5 Flash Image 的发布,标志着 AI 进入了一个新的阶段。角色一致性、自然对话式生成和高质量的图像编辑,已经让我们看到了未来的影子。 但有一点可以肯定:AI 领域的竞争不再是单点的功能对比,而是生态、交互和用户体验的全面较量。
池建强
1个月前
随着纳米香蕉风暴席卷全球,“火爆程度高于同期 GPT-4o”、“短时间内在 LMArena 等平台登顶”、“单日百万级互动量”,这些传说在 X 上广为流传。你看看,模型好 Google 就能瞬间翻盘。晚上总结了一下 Google 最新的顶级 AI 工具,有兴趣的都可以试试。事半功倍。 1、NanoBanana(Gemini 2.5 Flash Image) Google 最新的 AI 图像编辑工具,可通过文本提示实现高度一致的图像变换与本地精细编辑。已集成进 Gemini,是当前评价最高的图像编辑AI之一,适用于产品、时尚、社交等多种图片生成与修改场景。 访问入口: 或在 Gemini 应用内使用。 2、Flow(Google AI 电影制作工具) 该工具集成 Veo 3、Imagen 和 Gemini,创作者可通过自然语言提示快速生成电影级场景和故事,有助于影视创作和内容生成。 访问入口:,也可通过官方说明了解更多。 3、Veo 3(AI 视频生成器) Google 最新一代视频生成器,支持从文本、图片或片段生成高质量的视频,并具备逼真的视觉、动作、音频同步等功能,适合创作者和教育人士。 访问入口: 4、NotebookLM(AI 数字笔记/文档助手) 一款 AI 赋能的文档工具,能帮你快速分析文档、提炼要点并生成总结,现在还支持将多语种笔记直接做成视频演示,非常适合学术与内容创作者。 访问入口: 5、Gemma 3(杰玛3)开源大模型 这是 Google 基于 Gemini 2.0 技术推出的多模态开源 AI 模型系列,可以在个人电脑、云和移动端运行,支持 140 多种语言、文本、图片等输入,适合学术、开发和商业各种应用。官方支持 HuggingFace、Kaggle 下载以及 Vertex AI 接入。 访问入口:Gemma 3 官方页|开发文档/AI Studio|Vertex AI 模型库 5、Project Mariner(谷歌 AI 浏览器代理/自动化助手) 这是 Google 推出的下一代网页自动化智能体,可理解网页文本和视觉元素、在浏览器里自动完成多步任务(如内容抓取、填写表单、自动比价/搜索等),支持复杂的跨网页操作,目前 Ultra 订阅用户可率先体验,未来会集成进 Gemini Agent 模式。 访问入口:Google Labs 演示页面|官方介绍 金秋九月,终于来了,2025,还剩四个月。 2025年9月1日