一文看懂谷歌 Genie 3:AI 生成世界 这一周对 AI 的用户和开发者来说,绝对是劲爆的一周。Cloud4 上新,OpenAI 连发两款开源模型,接着发布了 GPT 5。但 GPT 5 没有震撼我,真正让我震撼的,是谷歌 DeepMind 团队发布的 Genie 3 世界模型。那种感觉,有点像当年第一次见到 ChatGPT 的时刻,心跳加速,眼前一亮。 Genie 3 是谷歌 DeepMind 团队发布的第三代世界模型。它最大的特点是可以通过自然语言,实时生成一个动态、可交互的虚拟环境。你可以像玩游戏一样在这个世界里自由探索、互动,画面达到 720p 分辨率、每秒 24 帧,并且能持续几分钟保持场景和物理的一致性。比如你输入“在下雨的森林里漫步”,Genie 3 就能立刻生成一个逼真的雨林世界,你可以在里面自由移动,环境会根据你的行为实时变化。 它还能模拟真实世界的物理规律,比如水流、光影、天气变化,甚至能生成复杂的生态系统和历史场景。你还可以用文本提示改变世界事件,比如让天气突然转晴、添加新的角色或物体。这种“可提示的世界事件”让虚拟世界的可玩性和想象空间大大提升。 Meta 首席 AI 科学家杨立昆一直认为 GPT 并不是通往 AGI 的终极路径,世界模型才是。 那什么是世界模型?就是能够理解世界的物理规律,能够预测下一个环境、下一个画面会发生什么。当你让 AI 在这个世界里“运行”时,它能做出反应,这叫世界模型。 这次发布的宣传片一开头,就是多重宇宙的既视感,各种画面轮番上阵。我们看到的,并不是游戏,也不是视频,而是一个个可以生成的世界。这些世界,我们可以用一句话创造,世界生成后,还可以在里面行走、移动,系统会给你反馈,你能看到更多的画面和场景。 最关键的是,它的“一致性”做得非常好。现在展示的画面分辨率是 720P,帧率 24fps。在移动过程中,无论左看右看,还是绕一圈再回来,画面都和之前保持一致。这说明它有“记忆”能力——这非常关键。人之所以能感知世界的连贯性,本质上就是因为有记忆。如果 AI 也能在生成过程中拥有记忆,这个世界就真的能“建立”起来。 视频里讲到了一个刷房子的例子,让人印象深刻:你在墙上刷上蓝色涂料,转身去别的地方,再转回来,墙上的痕迹还在。这说明它记住了你的操作。而且整个生成过程,每一步移动时的画面都不是提前渲染好的 3D,而是实时生成的,这就有意思了。 再比如玩游戏时,它能生成无限多的场景。我们现在玩的游戏,世界都是提前搭好的“模”。但如果是生成式的,而且始终保持一致性,那就能创造一个全新的世界。 用户可以通过自然语言实时对系统做出干预,包括时间地点人物事件等等。 与前代产品相比,这次发布的 Genie 3 在分辨率、实时交互、场景一致性等方面都有质的飞跃。它不仅适合做游戏、动画、小说场景的生成,更被视为未来训练智能体(AI agent)的理想平台。比如,研究人员可以让机器人在 Genie 3 生成的世界里反复练习各种任务,极大提升 AI 的学习效率和泛化能力。 Genie 1 是 2024 年 2 月发布的,当时团队发了一篇论文,数据集是 20 万小时的互联网公开游戏数据。用大量无标注的游戏数据训练,生成了一个 110 亿参数的模型。那时的模型还很简陋,生成的画面一看就很粗糙,但已经有了初步的交互形态,可以玩,可以转动视角等等。 2024 年 12 月,Genie 2 发布,分辨率提升到 360P,画面和交互性都在持续进步。 刚发布的就是 Genie 3 了。 这个想象空间还是非常大的,以后也许做游戏直接使用 prompt 生成一个游戏。在游戏里,我们还可以随时修改和设计游戏角色,内容,玩法等等。就像现在人人可以 vibe coding 一样,也许未来人人也可以成为游戏设计师。 除了游戏,我们还可以学习各种历史场景,模拟危险救援,实现模型推演,做各种现实世界里没法做的模拟训练和预测,想想是不是很刺激? 目前 Genie 3 还处在初级阶段,只能支持几分钟的连续互动,动作空间和多智能体交互能力有限,地理精度也尚未完全还原真实世界。但即便如此,它已经被视为生成式 AI 和虚拟世界建模领域的一次重大突破,未来有望在教育、科研、娱乐等多个领域落地应用。 这个方向,我感觉已经跑通了。也许很快,国内的大厂就会跟进,或者说,相关技术已经在酝酿之中。