#潜在推理空间

Line
4周前
这篇 2025,07 , 由 Deepmind, Meta, Anthropic, OpenAI AI 安全专家写的论文 《Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety》 讲了 CoT 安全的重要性, 警告我们不要轻易放弃可解释性 CoT。 这篇文章也获得了 Geoffrey Hinton, Ilya Sutskever 在内几个 大佬的背书。 论文里说到: 模型推理是依赖显式输出的 token 的, 现在的模型架构只有输出的 token 才能激活保存在参数内的模式。 另外,显式的输出答题步骤才有可能以单次固定算力消耗,然后,积累算力的方式,去解决一个需要多步推理才能解决的复杂问题。 (这里的输出 tokens 就相当于支付算力回答难题所支付的算力币) 以人类可理解符号进行思考对 LLM 来说其实是没有必要, LLM 完全可以以更压缩或更晦涩的符号进行思考。 如果模型以这种方式进行思考,会导致模型的行为方式由之前的半透明(CoT 可读),变回黑盒。 我们可以强制模型用自然语言进行思考, 但是,当模型足够聪明,模型可能学会用自然语的推理的同时隐藏自己的真实意图。 另外一方面,为了最求高效推理,人类甚至还会主动放弃显式 CoT,而采用潜在推理空间 (latent reasoning space) 类的技术。这会让模型的行为变得更为不可以预测。 也就是如果按现在的趋势发展下去: - 模型能力增强了会在知道自己被观测时隐藏自己的真实意图。 - 出于对高效推理的最求,我们会主动放弃显式 CoT。 都有可能产生非常危险的后果。 他们的建议: - 可以采用另外一个同等级的安全 AI 来监控解释在运行的 AI。 - 通过扰动修改模型 CoT 看观察模型是否存在欺骗行为,(大量行为无关 CoT 就可能是欺诈) - 在模拟环境中端到端地观察模型的行为 - 在系统卡中标注 CoT 可监控性的评估结果 - 不要轻易放弃可解释性 CoT, 哪怕牺牲点性能也没关系