时政
财经
科技
虚拟货币
其他
登录
#世界模型
关注
宝玉
1周前
转译:一篇新的名为《通用智能体包含世界模型》(General agents contain world models)的论文论文给出了严格的数学证明:智能体想要变得聪明,就必须建立一个关于其所处世界的模型——无论我们是否在程序里这样要求它。 这证明,我们长期以来梦想的那条通往通用人工智能的“无模型”之路,可能从一开始就想反了。 多年来,人工智能领域一直存在一个巨大的争论:我们是需要为 AI 智能体 明确构建“世界模型”(就像在脑海里对环境进行模拟推演),还是说,智能可以从简单的试错中自发涌现(即“无模型”方法)? “无模型” (model-free) 的想法一度非常吸引人,因为对真实世界进行建模实在是太难了。然而,这项新发现告诉我们,这份苦差事,谁也躲不掉。 核心发现:强大的智能体必然自带世界模型 General agents contain world models 这篇名论文,其核心发现是一个严谨的数学证明。 它指出:任何一个能够以有限的失败率完成复杂、多步骤任务的智能体,都必然在内部学习到了一个精确的环境预测模型。 简单来说就是:如果一个 AI 擅长做长远规划,那么它的行为本身,就已经包含了模拟其世界所需要的全部信息。 它表现得越好(犯错越少),或者它能处理的任务链条越长(目标深度越深),它内部的世界模型就必须越精确。 “隐藏款”能力:世界模型是涌现出来的 这件事最有趣的地方在于,这个世界模型是一种隐藏的能力。 它不是你必须明确写进代码里的东西,而是 AI 为了获得通用能力,在训练过程中不得不产生的副产品。为了高效地完成任务,智能体被“逼上梁山”,不得不去学习世界运转的规律。 那么,研究人员是如何证明这一点的呢?方法出奇地简单。 他们设计了一种算法,通过给智能体提出“二选一”的复杂目标来“审问”它。智能体的每一次抉择,都暴露了它对“哪条路更可能成功”的内在预测。通过这种方式,研究人员就能反向推导出它内部模型中的概率。 这对我们意味着什么? 这个发现彻底改变了我对“黑箱”AI 的看法。那种想通过“无模型捷径”直达通用人工智能 (AGI) 的想法,现在看来是行不通了。世界建模这项艰苦的工作无法避免,它只是以一种不易察觉的方式,在神经网络内部悄然发生了。 最实际的影响是什么?安全与可解释性 (interpretability)。 这篇论文从理论上保证了,我们能从任何一个足够强大的智能体中提取出这个隐藏的世界模型,而方法仅仅是观察它的行为策略。这意味着,我们可以打开一个不透明的系统,拿出它的世界“蓝图”来进行审查。 从更宏观的视角看,这项研究可能会统一整个领域。与其再争论“基于模型 vs. 无模型”路线,未来的焦点可以转移到如何构建、提取和利用这些必然存在的世界模型上。 它也为我们在大语言模型 (LLM) 中观察到的“涌现能力” (emergent capabilities) 提供了一个严谨的解释。 同时,它也引出了一系列新问题: • 今天这些基础模型内部隐含的世界模型究竟长什么样? • 它们的精确度有多高? • 我们能否利用这种提取方法来调试它们,从而在有害行为发生前就及时阻止? 探索才刚刚开始。 说到底,这篇论文为一个古老的想法提供了数学上的定论:一个智能体不仅仅是拥有一个世界模型——从某种意义上说,它本身就是一个模型。 这不再仅仅是一个架构上的选择,它看起来更像是通用智能的一条基本定律。
#通用人工智能
#世界模型
#AI
#无模型
#涌现能力
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
AI时代,最稀缺的能力,不再是获取信息的能力,而是构建“世界模型”的能力。无论这个模型是服务于一次30秒对话的“临时本体”,还是服务于一家百年基业的“永久本体”。 符号之镜高悬。它既不思考,也不判断。 它只是在忠实地,将我们投射于其上的,那个名为“我们自己”的本体,以我们无法想象的清晰度,再反射回来。 你眼中的AI是什么样子,就揭示了你是什么样子。 我思,故镜在。
#AI浪潮:重塑就业,风险暗涌?· 105 条信息
#AI时代
#世界模型
#稀缺能力
#本体构建
#自我认知
分享
评论 0
0
池建强
1个月前
一文看懂谷歌 Genie 3:AI 生成世界 这一周对 AI 的用户和开发者来说,绝对是劲爆的一周。Cloud4 上新,OpenAI 连发两款开源模型,接着发布了 GPT 5。但 GPT 5 没有震撼我,真正让我震撼的,是谷歌 DeepMind 团队发布的 Genie 3 世界模型。那种感觉,有点像当年第一次见到 ChatGPT 的时刻,心跳加速,眼前一亮。 Genie 3 是谷歌 DeepMind 团队发布的第三代世界模型。它最大的特点是可以通过自然语言,实时生成一个动态、可交互的虚拟环境。你可以像玩游戏一样在这个世界里自由探索、互动,画面达到 720p 分辨率、每秒 24 帧,并且能持续几分钟保持场景和物理的一致性。比如你输入“在下雨的森林里漫步”,Genie 3 就能立刻生成一个逼真的雨林世界,你可以在里面自由移动,环境会根据你的行为实时变化。 它还能模拟真实世界的物理规律,比如水流、光影、天气变化,甚至能生成复杂的生态系统和历史场景。你还可以用文本提示改变世界事件,比如让天气突然转晴、添加新的角色或物体。这种“可提示的世界事件”让虚拟世界的可玩性和想象空间大大提升。 Meta 首席 AI 科学家杨立昆一直认为 GPT 并不是通往 AGI 的终极路径,世界模型才是。 那什么是世界模型?就是能够理解世界的物理规律,能够预测下一个环境、下一个画面会发生什么。当你让 AI 在这个世界里“运行”时,它能做出反应,这叫世界模型。 这次发布的宣传片一开头,就是多重宇宙的既视感,各种画面轮番上阵。我们看到的,并不是游戏,也不是视频,而是一个个可以生成的世界。这些世界,我们可以用一句话创造,世界生成后,还可以在里面行走、移动,系统会给你反馈,你能看到更多的画面和场景。 最关键的是,它的“一致性”做得非常好。现在展示的画面分辨率是 720P,帧率 24fps。在移动过程中,无论左看右看,还是绕一圈再回来,画面都和之前保持一致。这说明它有“记忆”能力——这非常关键。人之所以能感知世界的连贯性,本质上就是因为有记忆。如果 AI 也能在生成过程中拥有记忆,这个世界就真的能“建立”起来。 视频里讲到了一个刷房子的例子,让人印象深刻:你在墙上刷上蓝色涂料,转身去别的地方,再转回来,墙上的痕迹还在。这说明它记住了你的操作。而且整个生成过程,每一步移动时的画面都不是提前渲染好的 3D,而是实时生成的,这就有意思了。 再比如玩游戏时,它能生成无限多的场景。我们现在玩的游戏,世界都是提前搭好的“模”。但如果是生成式的,而且始终保持一致性,那就能创造一个全新的世界。 用户可以通过自然语言实时对系统做出干预,包括时间地点人物事件等等。 与前代产品相比,这次发布的 Genie 3 在分辨率、实时交互、场景一致性等方面都有质的飞跃。它不仅适合做游戏、动画、小说场景的生成,更被视为未来训练智能体(AI agent)的理想平台。比如,研究人员可以让机器人在 Genie 3 生成的世界里反复练习各种任务,极大提升 AI 的学习效率和泛化能力。 Genie 1 是 2024 年 2 月发布的,当时团队发了一篇论文,数据集是 20 万小时的互联网公开游戏数据。用大量无标注的游戏数据训练,生成了一个 110 亿参数的模型。那时的模型还很简陋,生成的画面一看就很粗糙,但已经有了初步的交互形态,可以玩,可以转动视角等等。 2024 年 12 月,Genie 2 发布,分辨率提升到 360P,画面和交互性都在持续进步。 刚发布的就是 Genie 3 了。 这个想象空间还是非常大的,以后也许做游戏直接使用 prompt 生成一个游戏。在游戏里,我们还可以随时修改和设计游戏角色,内容,玩法等等。就像现在人人可以 vibe coding 一样,也许未来人人也可以成为游戏设计师。 除了游戏,我们还可以学习各种历史场景,模拟危险救援,实现模型推演,做各种现实世界里没法做的模拟训练和预测,想想是不是很刺激? 目前 Genie 3 还处在初级阶段,只能支持几分钟的连续互动,动作空间和多智能体交互能力有限,地理精度也尚未完全还原真实世界。但即便如此,它已经被视为生成式 AI 和虚拟世界建模领域的一次重大突破,未来有望在教育、科研、娱乐等多个领域落地应用。 这个方向,我感觉已经跑通了。也许很快,国内的大厂就会跟进,或者说,相关技术已经在酝酿之中。
谷歌Deep Research:AI操作系统雏形?· 79 条信息
#谷歌DeepMind
#Genie 3
#世界模型
#AI生成
#虚拟环境
分享
评论 0
0
Tony出海
1个月前
奥特曼太鸡贼了,用一个simple-bench排名为34位(LLM基本常识和推理能力测试排名),比grok 2还低。 成功抢了世界的眼球,掩盖了Google发布的Genie 3世界模型。 我剪辑了精彩Genie 3视频合集。两个字,震撼
#奥特曼
#Genie 3
#LLM
#排名
#世界模型
分享
评论 0
0
orange.ai
1个月前
Google 发布的 Genie3 非常惊艳 在最现金的世界模型之下,游戏和视频已经没有分别 它把《完蛋!我被美女包围了!》这样的选择性互动做到了无限细分。 它的局限是目前所支持的行动和时间都还比较有限。 只支持几分钟,只能放在一些游戏场景里。
#Google Genie3
#世界模型
#游戏视频
#选择性互动
#技术局限
分享
评论 0
0
郭宇 guoyu.eth
1个月前
去年我在加州住了几个月,与研究机器人理论的朋友讨论最新的技术发展和可投资的机会,许多人同意,目前类人机器人遇到最大的问题是缺乏训练数据,换言之,我们需要大量的模拟世界创造的数据,我们可以将模拟数据的创造者称为世界模型。 最近我在海岛度假,阅读「盲视」这本小说,想起去年这段经历,似乎有了一些新的启发。人类驾驶员在学习驾驶车辆时往往并不花费太多时间,而神经网络却需要大量的视频数据训练,这之间的差别在哪里? 我想,也许人类学习此类技能,并不使用我们真正的神经网络思考,而利用低级神经中枢进行反射训练。大脑在其中的作用,可能并非决策,而是处理与识别五感传递的信息。换句话说,当我们开车时,我们使用了大脑的自动驾驶功能,我们看见,却没真正使用看见的信息,相反的,我们用感受与反射替代大脑的决策,因为大脑不参与多数的决策,我们使用「盲视」实现了「忘我」的驾驶。 人类的大脑中也存在世界的模型,当我们关注周遭的事物时,我们并不往外看,而是向内观。大脑对世界的理解影响了我们的决策,世界对大脑输入的信息又影响了这座模型的形成。成长的过程中,对自我概念的理解也形成在这座模型中,当然,每个人的世界模型会有许多的差异,因为这仅仅是对客观世界的模拟,对世界存在的模拟,创造了「我存在」的幻觉。 从这个角度看,世界模型并不能解决机器人适应所有的人类课题,但 AI 的世界模型,一定是没有「自我」这一幻觉或者副作用的,佛教理论中,将人类众生看成五蕴的组合,肉身和它的运动也是各种缘起的果,就是将人体看成是一部反射的机器,大脑产生的识与意也是机器处理的结果。对更纯粹的机器人来说,无我是更自然的理论。 诸行无常,诸法无我,这是不是说明机器人都证入涅槃,脱离世间之苦了呢?这真是个极好的问题,我把这问题记在此处,留给有缘人去思考吧。
#机器人
#世界模型
#盲视
#无我
#佛教
分享
评论 0
0
Gorden Sun
3个月前
V-JEPA 2:Meta开源的世界模型 杨立昆带队的视觉模型,不仅能理解视频,而且能预测视频。在视觉评测的所有项目上都获得了最高分,在指挥机器人行动方面遥遥领先。 官方介绍: Github: 模型:
#Meta
#世界模型
#V-JEPA 2
#视觉模型
#视频预测
分享
评论 0
0
AIGCLINK
3个月前
近期交流了很多具身智能公司和机器人公司,包括机器人数据训练场等,对整体的产业链各方面做了整体的了解,得到一些体感和结论供大家参考: 1、具身智能领域还没有迎来gpt时刻,还处于局部优化阶段,大多数团队都是专注于电机、手臂、曲度、手抓能力等局部优化,全部优化团队非常缺少。 2、国内的大多数具身一线公司还没有进入VLA模型阶段,部分公司在尝试世界模型,但都集中在局部场景,精细度可以做到很高但场景泛化能力有限 3、比如群核科技在细分场景做的非常靠前,而且给出的3d设计可以直接用,像展位设计、装修设计、工厂3d建模生产排班等均可自动化,但还是偏向于局部场景。 4、VLA模型在国外有多家有一定的进展,Google的gemini robotic、figure01的模型等,多家在vla模型上都在尝试,国内也就智源在这个方向上有一些建树,其他家貌似还没有开始。 5、从我个人的观察和判断,未来还是需要多模态大模型公司实现从2d多模态到3d多模态突破,从而实现vla模型的突破,但是当下还没有看到哪家模型公司有苗头。 6、这里也呼吁国内的模型公司和团队要关注VLA模型这个方向,这个方向是抢占具身智能未来的关键一环,未来具身智能的三个关键要素:VLA模型+内化指令集的跨平台ROS+具身机器人材料部件。 #具身智能 #vla模型 #gemini
#具身智能
#机器人公司
#机器人数据训练场
#产业链
#gpt时刻
#VLA模型
#世界模型
#电机
#手臂
#曲度
#手抓能力
#局部优化
#整体优化
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞