一文看懂谷歌 Genie 3:AI 生成世界 这一周对 AI 的用户和开发者来说,绝对是劲爆的一周。Cloud4 上新,OpenAI 连发两款开源模型,接着发布了 GPT 5。但 GPT 5 没有震撼我,真正让我震撼的,是谷歌 DeepMind 团队发布的 Genie 3 世界模型。那种感觉,有点像当年第一次见到 ChatGPT 的时刻,心跳加速,眼前一亮。 Genie 3 是谷歌 DeepMind 团队发布的第三代世界模型。它最大的特点是可以通过自然语言,实时生成一个动态、可交互的虚拟环境。你可以像玩游戏一样在这个世界里自由探索、互动,画面达到 720p 分辨率、每秒 24 帧,并且能持续几分钟保持场景和物理的一致性。比如你输入“在下雨的森林里漫步”,Genie 3 就能立刻生成一个逼真的雨林世界,你可以在里面自由移动,环境会根据你的行为实时变化。 它还能模拟真实世界的物理规律,比如水流、光影、天气变化,甚至能生成复杂的生态系统和历史场景。你还可以用文本提示改变世界事件,比如让天气突然转晴、添加新的角色或物体。这种“可提示的世界事件”让虚拟世界的可玩性和想象空间大大提升。​⁠ Meta 首席 AI 科学家杨立昆一直认为 GPT 并不是通往 AGI 的终极路径,世界模型才是。 那什么是世界模型?就是能够理解世界的物理规律,能够预测下一个环境、下一个画面会发生什么。当你让 AI 在这个世界里“运行”时,它能做出反应,这叫世界模型。 这次发布的宣传片一开头,就是多重宇宙的既视感,各种画面轮番上阵。我们看到的,并不是游戏,也不是视频,而是一个个可以生成的世界。这些世界,我们可以用一句话创造,世界生成后,还可以在里面行走、移动,系统会给你反馈,你能看到更多的画面和场景。 最关键的是,它的“一致性”做得非常好。现在展示的画面分辨率是 720P,帧率 24fps。在移动过程中,无论左看右看,还是绕一圈再回来,画面都和之前保持一致。这说明它有“记忆”能力——这非常关键。人之所以能感知世界的连贯性,本质上就是因为有记忆。如果 AI 也能在生成过程中拥有记忆,这个世界就真的能“建立”起来。 视频里讲到了一个刷房子的例子,让人印象深刻:你在墙上刷上蓝色涂料,转身去别的地方,再转回来,墙上的痕迹还在。这说明它记住了你的操作。而且整个生成过程,每一步移动时的画面都不是提前渲染好的 3D,而是实时生成的,这就有意思了。 再比如玩游戏时,它能生成无限多的场景。我们现在玩的游戏,世界都是提前搭好的“模”。但如果是生成式的,而且始终保持一致性,那就能创造一个全新的世界。 用户可以通过自然语言实时对系统做出干预,包括时间地点人物事件等等。 与前代产品相比,这次发布的 Genie 3 在分辨率、实时交互、场景一致性等方面都有质的飞跃。它不仅适合做游戏、动画、小说场景的生成,更被视为未来训练智能体(AI agent)的理想平台。比如,研究人员可以让机器人在 Genie 3 生成的世界里反复练习各种任务,极大提升 AI 的学习效率和泛化能力。​⁠ Genie 1 是 2024 年 2 月发布的,当时团队发了一篇论文,数据集是 20 万小时的互联网公开游戏数据。用大量无标注的游戏数据训练,生成了一个 110 亿参数的模型。那时的模型还很简陋,生成的画面一看就很粗糙,但已经有了初步的交互形态,可以玩,可以转动视角等等。 2024 年 12 月,Genie 2 发布,分辨率提升到 360P,画面和交互性都在持续进步。 刚发布的就是 Genie 3 了。 这个想象空间还是非常大的,以后也许做游戏直接使用 prompt 生成一个游戏。在游戏里,我们还可以随时修改和设计游戏角色,内容,玩法等等。就像现在人人可以 vibe coding 一样,也许未来人人也可以成为游戏设计师。 除了游戏,我们还可以学习各种历史场景,模拟危险救援,实现模型推演,做各种现实世界里没法做的模拟训练和预测,想想是不是很刺激? 目前 Genie 3 还处在初级阶段,只能支持几分钟的连续互动,动作空间和多智能体交互能力有限,地理精度也尚未完全还原真实世界。但即便如此,它已经被视为生成式 AI 和虚拟世界建模领域的一次重大突破,未来有望在教育、科研、娱乐等多个领域落地应用。 这个方向,我感觉已经跑通了。也许很快,国内的大厂就会跟进,或者说,相关技术已经在酝酿之中。
池建强
1个月前
谷歌也来vibe coding 了,Opal是什么? 到了 2025 年,AI 应用领域最热的俩概念和产品,一个是 Agent,一个 AI 编程工具。这周字节发了 Trae SOLO,阿里推出了 Qwen3 Coder,腾讯发布了自己的 AI IDE Codebuddy……你能想到的科技巨头和新锐创业公司,都在争先恐后地搞自己的“vibe-coding”产品。像成熟一点的 Lovable、Cursor 这些玩家更是成了投资人追捧的对象,市场上热钱涌动,风头无两。 有时候投资市场和炒股差不多,一窝蜂,什么热投什么,直到这个市场的泡沫被挤干净才算完。如果你不做热门领域,想拿投资门都没有。 这不,刚刚看到 Google 在 他们的 Google Labs 也上线了一款叫 Opal 的“vibe-coding”应用,看起来也是同类型产品,目前在美国市场试水呢。国内有些用户可能不知道,Google Labs 一直是谷歌内部的创新孵化器,很多实验型产品都从这里走出来。 Opal 的玩法看起来有点像 Trae SOHO,或者 MiniMax 的全栈功能,很直接:用户用一句话描述想做的 Web 应用,剩下的交给谷歌的 AI 模型来搞定。你甚至可以在应用库里挑一个现有的项目,点几下 remix,立马生成一个新版本。 应用生成后,Opal 会把整个流程可视化,输入、输出、每一步的生成逻辑都能在面板里看到。你想改哪里,点进去就能编辑提示词,或者直接用工具栏加新步骤。整个过程像搭积木一样,几乎不需要写代码。 做好之后,Opal 支持一键发布,把你的应用挂到网页上,还能生成链接分享给朋友。对方只要有谷歌账号,就能在线体验你的作品。 Google 的全家桶优势就出来了。基础设施一应俱全。 其实,谷歌的 AI Studio 早就支持通过提示词做应用了,但更多是开发者在用。Opal 是把整个流程做成了可视化的工作流,门槛一下子降到了普通用户也能玩转的程度。很明显,谷歌的目标不只是开发者,而是更广泛的创作者和好奇心旺盛的普通人。 目前看起来这个领域还是一场混战,我们自己用 Cursor 和 Trae 比较多,但 Lovable,Devin,Replit 用户也不少,我在 2014 年之前一直做开发平台,算是低代码的雏形,十年过去了,世界真是一日千里。现在都零代码开发,各大公司借着 AI 之风,可劲推低编程的门槛,试图让更多人实现“用想法造产品”的自由。 谷歌 Opal 的出现,无疑会让这场竞争变得更有趣。 技术的门槛在变低,创意和洞察力反倒成了稀缺资源。也许未来某一天,人人都能用“vibe-coding”造出自己的小工具,技术不再是壁垒,故事才是核心。
池建强
1个月前
再不适应时代,苹果将成为下一个诺基亚 看到这个新闻还是挺感慨的,苹果持有万亿现金,这些年在新领域的开拓真是折戟沉沙,AI 也毫无建树。 毫无疑问,这事 CEO 全责 据彭博社记者 Mark Gurman 报道,尽管苹果近期启动了大规模的管理层重组,现任 CEO、65 岁的库克仍将继续留任。报道指出,苹果正深陷「AI 危机」,但库克依然可能继续执掌公司 5-10 年。 苹果首席运营官 Jeff Williams——一直被视为库克的接班人——已在此次管理层重组中离职。同时,苹果内部并没有迹象显示库克准备离开,或是开始培养新的继任者。 苹果服务主管 Eddy Cue 近日在内部警告称,如果不能迅速适应 AI 时代,苹果有可能会成为下一个黑莓或者诺基亚。目前,苹果正面临 AI 功能研发缓慢、发布时间延误等多重挑战。 Gurman 指出,虽然库克对苹果目前的困境负有责任,但董事会依然认为他是唯一能够扭转局势的人选。同时,Gurman 还预测,苹果管理层大幅改革的原因之一在于,不少高管已年过六旬,财富丰厚,人家也不想当 CEO 了,财富和梦想都实现了,还有多少动力呢? 作为 MacTalk,我认为啊,iPhone、Mac、OS 等延续了乔布斯时代的产品,依然是顶级的,但是苹果的 AI,汽车和眼镜等战略性产品,目前看都是失败的。库克那么大岁数了,别当巴菲特了,该退退。 这人老了吧,就得该退退。
池建强
2个月前