#自然语言交互

这事你还没注意呢,巨无霸已经完成“反超时刻” 过去两年世界的主旋律就是 AI 行业,AI 行业的主旋律和明星公司自然是 OpenAI 的 GPT 了。无论是模型能力,发布节奏,还是产品化速度,品牌深入人心的影响力,GPT 一枝独秀,虽然说前三名是 OpenAI、Google 和 Anthropic,对应的模型就是 GTP、Gemini 和 Claude,但大家普遍的心智还是,二三名和第一,有代际差距,至少是落后几个月的身位。 我记得 AI 搜索流行的时候,国外同行都有共识,这事对 Google 影响最大,当 Perplexity 宣布用 AI 搜索颠覆 Google 的时候,这个巨无霸是否在瑟瑟发抖呢? 看起来并没有。 DeepMind 作为 Google 内部最具创新力的团队之一,很早就在基础模型、推理能力、跨模态理解等领域深耕多年。许多技术突破和算法优化,悄摸早就用在 Google 的各条产品线上了,只是大多数人并未察觉。 等到 Gemini 2.5 Flash Image 发布的那一刻,才让人意识到,Google 并不是慢了一步,而是在等待一个合适的时机,这个时机甚至不是自己创造的或者 Google 营销的,而是产品自身带来的引爆点。 DeepMind 的积累和 Google 的产品能力,最终在这场 AI 的竞赛中实现了“暗中提速”,也让外界对 Google 的判断出现了偏差。 如果说之前大家还在讨论“谁的模型跑得更快”,那么现在,Google 给出的答案是:不止快,更聪明。 并且 Nano Banana(Gemini 2.5 Flash Image的模型代号)的速度真心不慢。上周只是生图的速度快,当时我还觉得这质量不如 GPT 啊。今天试了一下,生成的图片质量已经不分伯仲了: Google DeepMind 视觉生成产品负责人 Nicole Brichtova 在谈到这一代模型时,用了“质的飞跃”来形容。 她认为,不论是图像生成,还是后续的编辑,Gemini 2.5 Flash Image 已经达到了业内的新高度。而这确实是用户亲身体验后才能感受到的震撼。 1、一致性与自然交互 这代模型最令人惊讶的地方,在于它解决了长期困扰生成式 AI 的“连续性”问题。 以往的图像生成工具,如果你要求它“换个角度”或者“换件衣服”,往往会生成一张完全不同的人物,就像在描述另外一个角色。 而 Gemini 2.5 Flash Image 的特性是:它能在多轮自然语言交互中保持角色高度一致,这周我又试了试,一致性正在变得越来越好。 你可以换动作、换服装、甚至换场景,但画面里的那个人,依然是“同一个人”。这对于创意产业、品牌设计乃至虚拟 IP 的构建,都是革命性的。 更妙的是,这种交互方式不再是“冷冰冰的参数和命令”,而是接近人类自然对话的体验。模糊的表达、自由的提示,甚至一句极简的“再来一张”,模型都能理解并产出符合预期的结果。 2、从“生图”到“对话” 回想一下上周,我还觉得 nano banana 这样的模型和 GPT 之间的差距明显,而短短一周后,差距就很难分辨了。 模型的进化速度,就像火箭一样,一次次把人类的想象推向更远的地方。 过去我们谈 AI 图像生成,用的是“生图”这个词,意味着它像摄影一样,一次性生成一张图。现在,Gemini 2.5 Flash Image 的体验,更接近一种“对话”。 你和它说话,它理解上下文,持续生成;你提出修改,它保留一致性,灵活调整。模型的“聪明程度”第一次让人觉得,它不仅仅是一个工具,而更像一个合作者。 Nicole Brichtova 在采访时说过另一句话:“我们现在看到的,只是这些模型潜力的冰山一角。” 是图像生成、角色一致性和自然语言驱动的突破,但在这些能力背后,真正令人期待的是 AI 原生的交互范式。当模型具备了跨模态的语义理解能力,它就不再局限于“输入-输出”,而是可以持续陪伴用户,完成更复杂的创作任务。这可能是一次范式转移。 在 AI 时代有个和以前非常不一样的现象:纯工具没什么护城河,留给创业者的时间差非常小。很多创业公司基于之前大模型做出来的工程化产品,一旦新模型出来,你的工程化能力,直接就被新模型碾压了,这是个巨大的创业鸿沟。 比如你之前基于 GPT 的 API 搞了很多工程化的算法保证角色一致性做了一个绘图工具,现在 Nano Banana 出来,你的产品立刻就会被抛弃了。用户不会有忠诚度的。 但剪映这样的工具肯定不会抛弃,对吧?因为剪映做的工程化,大模型是做不了或不愿意做的。 如何重新思考并建立自己的用户群和核心机制,这是创业公司必须要考虑的事。 Gemini 2.5 Flash Image 的发布,标志着 AI 进入了一个新的阶段。角色一致性、自然对话式生成和高质量的图像编辑,已经让我们看到了未来的影子。 但有一点可以肯定:AI 领域的竞争不再是单点的功能对比,而是生态、交互和用户体验的全面较量。
凡人小北
3个月前
体验了一天 Gemini CLI,也刷了很多人的用法,先声明,我没有拿它写一行代码。 但就是因为没写代码,我反而看得更清楚:这压根不是一个开发工具,而是一场关于“AI 操作系统”形态的预演。也是我为啥说“Google 难得让自己的作品走出浏览器”,ta 有自己 的考虑。 Google 用一种非常低调,甚至有点刻意“只面向技术宅”的方式,把它对未来的构想——“让自然语言成为操作系统的主入口”,悄悄塞进了命令行窗口里,让你在不知不觉中体验了一次“语言即操作”的完整链路。 它当然能写代码,甚至可以说这是它门槛最低、演示效果最好的一部分,所以很多人第一反应是拿它去和 Claude Code 比;但说实话,那只是皮毛。 真正让我“咯噔”一下的,是它一句话就能搜最新网页、批量整理本地文件和照片、把一堆静态图直接转成小视频。过去你得开五个 tab、切三个工具才能做完的事,现在终端里一口气全打包,像是有个全栈多媒体实习生住进电脑,而且根本不用你教他命令。 但问题也来了,现实门槛摆在那儿,CLI 的交互方式还没对上大众。 我们这批人觉得好用,是因为我们会用命令行,知道怎么找路径、写 prompt、调环境。一旦离开这批人,CLI 对大多数用户来说,依然是巨大的门槛。别说 prompt 优化了,连“怎么打开终端”都能劝退大半。 我很确认的一点,这玩意就是一次技术力的试水。 Google 先把系统级 AI 能力暴露给最早那批能玩得转的人,交给他们去试、去玩、去验证。 真正要跑起来的,一定不是 CLI,而是那些被 UI 包装好的形态,Chrome 侧边栏、Workspace 浮窗、Android 桌面助手……到那个时候,Gemini CLI 里的这些“超能力”,才会真正进入大众视野。 到时候,你不会再看到命令行,只会看到一个按钮,一个提示框,一个帮我搞定的入口。 这才是 Google 真正要做的事:让 prompt 成为操作系统的一层,隐入日常、不再显眼。 不要被 CLI 的形态迷惑,它不是终点,也不是主角。 我最期待的是,当语言取代 GUI 成为系统 API,当交互方式不再是鼠标+窗口,那谁来定义这个“语义层”,谁就重新定义了未来的界面、工具,甚至我们的工作方式。 开源的 Gemini CLI 是 Google 这个更大野心的起点。