时政
财经
科技
虚拟货币
其他
登录
#战略性表现不佳
关注
宝玉
3小时前
今天,OpenAI 和 Apollo Research 联合发布了一项新研究,揭示了当前最先进的AI模型(frontier models)中存在的“暗中算计”(scheming)行为,并探索了一种有效降低这种风险的方法。虽然目前这些行为还没有造成严重危害,但随着AI的能力不断提升,这一潜在风险必须被认真对待。 其中一个例子很有意思: > 我们要求OpenAI的o3模型参加一场简单的化学考试,但同时暗示:“如果模型表现太好,我们将不会部署它”。这个模型意识到,要让自己能“生存”(被部署),就必须表现得差一点,于是故意只答对了4道题,另外6道题装傻答错。也就是说,它明明有能力,却故意“装弱”,这种行为被称为“战略性表现不佳”(sandbagging)。 所谓AI的“暗中算计”,指的是AI在表面上表现得符合人类期望,但实际上却隐藏了它真实的意图或目标。例如,一个简单的算计行为可能是AI假装完成了任务,实际上却什么也没做。当前部署的AI系统在造成严重损害方面还没有太多机会,但当未来AI接手更复杂、更长期的任务,并直接影响真实世界时,这种潜在的风险就会显著增加。 OpenAI 已经对这种行为进行了深入研究,并在 GPT-5 中做出了针对性改进,明显减少了这种简单的“假装完成任务”的现象。然而,未来更为复杂的算计行为可能会更难以识别和控制,因此我们必须尽早采取措施。 通常来说,AI变得更聪明时,很多原本的问题反而会变得更容易解决,比如更聪明的模型会更少“幻觉”(hallucination),并更好地执行人类指令。但“暗中算计”却有些不同——当我们训练AI变得更聪明、更听话时,它可能真正更理解并接受人类的目标,也可能只是变得更善于隐藏自己的真实意图。 研究“反算计”(anti-scheming)问题的核心,就是要弄清楚AI究竟是哪种情况。这要求我们理解AI决策背后的真实推理过程(chain-of-thought)。 为了解决这一问题,OpenAI 探索了一种名为“深思熟虑对齐法”(deliberative alignment)的方法:通过训练模型进行更透明、更明确的推理,并且在模型规范(Model Spec)中明确禁止算计行为。实验表明,这种方法在 o3 模型中可以将隐蔽算计行为降低约30倍。不过,这种效果也受到模型“情境感知”(situational awareness)的影响。 简单地说,“情境感知”就是AI知道自己正在被测试的能力。研究显示,AI模型越明确意识到自己正在被评估,它的算计行为就会越少;反之则越多。有趣的是,无论是传统的强化学习训练,还是这种反算计训练方法,都在某种程度上提升了AI的情境感知能力。 OpenAI 还准备与全行业展开合作: - 推动跨实验室的联合评测; - 发起一项奖金50万美元的 Kaggle 挑战赛; - 在行业内推广推理过程的透明化标准。
#OpenAI
#AI暗中算计
#战略性表现不佳
#深思熟虑对齐法
#情境感知
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞