Line 0 关注者 关注 2个月前 2025,06, Deepmind 的这篇论文在定理1 中证明了:我们在无世界模型(model-free) 环境下训练出的某个策略模型,如果遵循这个策略模型能让模型通过推理接近一个目标,那么,这个策略模型在内部必定有一个等价的世界模型。 定理1 的大概证明方法就是通过构造两个选项 A(事件发生的概率 > k ),B (事件发生的概率 < k ), 然后,递进的向策略模型π 来试探 k 值, 再反 前往原网页查看