2025,06, Deepmind 的这篇论文在定理1 中证明了:我们在无世界模型(model-free) 环境下训练出的某个策略模型,如果遵循这个策略模型能让模型通过推理接近一个目标,那么,这个策略模型在内部必定有一个等价的世界模型。 定理1 的大概证明方法就是通过构造两个选项 A(事件发生的概率 > k ),B (事件发生的概率 < k ), 然后,递进的向策略模型π 来试探 k 值, 再反推出模型对世界的建模情况, 当 k 与真实 概率接近时就说明了策略模型中对世界的建模是对的,也就是在内部存在一个准确的世界模型。 在论文定理 2 中他们进一步证明了, 当策略预测任务过于简单,是玩法估算出这个概率 k 的, 因为过于简单的任务等价说这样的选项: A:事件可能发生, B:事件不可能发生。 这类时序复杂度 n = 1 的任务在数学上就玩法算出概率 k, 只有 n>1 才有可能估算出概率 k, 从而逆推出世界模型。 这篇论文的证明补充了之前理论的一个短板, 现在完整的理论是这样的: (g, p) -> π : 表示给定一个世界模型p,以及目标(g), 必存存在一个最优策略 π。 这是强化学习的理论基础, (p, π) -> g : 给定一个世界模型p,及某个策略,能否确定唯一的目标。这个不成立 (g, π) -> p : 这个说的是:能达到给定目标 g 的策略函数π,必定包含了一个世界模型p(本论文的贡献) p 代表状态转移函数,状态转移函数就是 MDP (马尔可夫过程)中让一个状态转移到下一个状态的函数,世界模型可以用状态转移函数近似。 注意:这里的世界模型是相当广泛概念,可以指真实的世界(FSD 眼中的世界),也可以虚拟的世界(比如人造游戏,围棋,象棋之类)。 如果要实现人类智力圣杯 AGI , 这个世界模型几乎需要包括人类认知的一切,包括: 物理世界, 社会规则, 人类的心智世界, 甚至是由心智创造出来的虚拟世界。 目前的 LLM 也在逼近这样的世界模型,只是距离依然相当遥远。