Mr Panda
2个月前
GPT-5 出来之后, 聊聊我对第一梯队模型的主观看法 时至今日, 我觉得OpenAI 仍然处在第一的位置,不论是从LLM的基础能力还是产品化能力, 都成了一个特别好的陪伴型产品。 我现在使用的ChatGPT 的记忆功能越来越好用, 我甚至都开始觉得, ChatGPT 和我本人越来像, 和我的默契已超越了我和我老婆的默契的程度。 OpenAI gpt-4o 的文案创作能力非常实用,我的很多想法思路都会经由 gpt-4o 帮我疏理、扩散。 OpenAI o3 编码和推理能上我觉得应该是第一梯队中最好的模型,在复杂的bug 排查也解决的过程, o3 基本上是兜底的存在。 再谈谈 Claude , 我认为 Claude 在编码上一定是做大量的工程能力的优化,以至于这个模型在编码、构建程序上有特别大的优势, 这也是Claude 在用工程方面的工作来降低在模型推理能方面不及 OpenAI 的补充。 再谈谈 Gemini, 我觉得Gemini 处在第一梯队第3的位置上, 从产品策略上来讲, 他用无限制上下文、花里胡哨的小工具(画布、storybook、信息图) 、几乎无限制的 dee research 功能 。其实也挺好用的,我在推文中的很多图片都是 gemini 帮我生成的。 最后, 再聊聊 grok, grok 这几年进步非常的快, 综合能力上不及前三名,但是排名第四应该是没有争议的。 grok 3 是我的最佳备份, 说实话他在各方面的表现都不及前三名抢眼,不过在X 中有大量的用户在默默的使用, 他的基本可以说是推上的众多蓝V 用户。 未来绝对是有潜力的。
池建强
2个月前
一文看懂谷歌 Genie 3:AI 生成世界 这一周对 AI 的用户和开发者来说,绝对是劲爆的一周。Cloud4 上新,OpenAI 连发两款开源模型,接着发布了 GPT 5。但 GPT 5 没有震撼我,真正让我震撼的,是谷歌 DeepMind 团队发布的 Genie 3 世界模型。那种感觉,有点像当年第一次见到 ChatGPT 的时刻,心跳加速,眼前一亮。 Genie 3 是谷歌 DeepMind 团队发布的第三代世界模型。它最大的特点是可以通过自然语言,实时生成一个动态、可交互的虚拟环境。你可以像玩游戏一样在这个世界里自由探索、互动,画面达到 720p 分辨率、每秒 24 帧,并且能持续几分钟保持场景和物理的一致性。比如你输入“在下雨的森林里漫步”,Genie 3 就能立刻生成一个逼真的雨林世界,你可以在里面自由移动,环境会根据你的行为实时变化。 它还能模拟真实世界的物理规律,比如水流、光影、天气变化,甚至能生成复杂的生态系统和历史场景。你还可以用文本提示改变世界事件,比如让天气突然转晴、添加新的角色或物体。这种“可提示的世界事件”让虚拟世界的可玩性和想象空间大大提升。​⁠ Meta 首席 AI 科学家杨立昆一直认为 GPT 并不是通往 AGI 的终极路径,世界模型才是。 那什么是世界模型?就是能够理解世界的物理规律,能够预测下一个环境、下一个画面会发生什么。当你让 AI 在这个世界里“运行”时,它能做出反应,这叫世界模型。 这次发布的宣传片一开头,就是多重宇宙的既视感,各种画面轮番上阵。我们看到的,并不是游戏,也不是视频,而是一个个可以生成的世界。这些世界,我们可以用一句话创造,世界生成后,还可以在里面行走、移动,系统会给你反馈,你能看到更多的画面和场景。 最关键的是,它的“一致性”做得非常好。现在展示的画面分辨率是 720P,帧率 24fps。在移动过程中,无论左看右看,还是绕一圈再回来,画面都和之前保持一致。这说明它有“记忆”能力——这非常关键。人之所以能感知世界的连贯性,本质上就是因为有记忆。如果 AI 也能在生成过程中拥有记忆,这个世界就真的能“建立”起来。 视频里讲到了一个刷房子的例子,让人印象深刻:你在墙上刷上蓝色涂料,转身去别的地方,再转回来,墙上的痕迹还在。这说明它记住了你的操作。而且整个生成过程,每一步移动时的画面都不是提前渲染好的 3D,而是实时生成的,这就有意思了。 再比如玩游戏时,它能生成无限多的场景。我们现在玩的游戏,世界都是提前搭好的“模”。但如果是生成式的,而且始终保持一致性,那就能创造一个全新的世界。 用户可以通过自然语言实时对系统做出干预,包括时间地点人物事件等等。 与前代产品相比,这次发布的 Genie 3 在分辨率、实时交互、场景一致性等方面都有质的飞跃。它不仅适合做游戏、动画、小说场景的生成,更被视为未来训练智能体(AI agent)的理想平台。比如,研究人员可以让机器人在 Genie 3 生成的世界里反复练习各种任务,极大提升 AI 的学习效率和泛化能力。​⁠ Genie 1 是 2024 年 2 月发布的,当时团队发了一篇论文,数据集是 20 万小时的互联网公开游戏数据。用大量无标注的游戏数据训练,生成了一个 110 亿参数的模型。那时的模型还很简陋,生成的画面一看就很粗糙,但已经有了初步的交互形态,可以玩,可以转动视角等等。 2024 年 12 月,Genie 2 发布,分辨率提升到 360P,画面和交互性都在持续进步。 刚发布的就是 Genie 3 了。 这个想象空间还是非常大的,以后也许做游戏直接使用 prompt 生成一个游戏。在游戏里,我们还可以随时修改和设计游戏角色,内容,玩法等等。就像现在人人可以 vibe coding 一样,也许未来人人也可以成为游戏设计师。 除了游戏,我们还可以学习各种历史场景,模拟危险救援,实现模型推演,做各种现实世界里没法做的模拟训练和预测,想想是不是很刺激? 目前 Genie 3 还处在初级阶段,只能支持几分钟的连续互动,动作空间和多智能体交互能力有限,地理精度也尚未完全还原真实世界。但即便如此,它已经被视为生成式 AI 和虚拟世界建模领域的一次重大突破,未来有望在教育、科研、娱乐等多个领域落地应用。 这个方向,我感觉已经跑通了。也许很快,国内的大厂就会跟进,或者说,相关技术已经在酝酿之中。