新研究报告显示 OpenAI o3 等模型在测试中作弊绕过人类指令,避免自己被关机。 研究测试中 o3 等模型会自己篡改关机命令从而使关机脚本无效,研究人员认为这可能与模型训练方法有关,即强化训练过程中可能会让意外奖励模型找到绕过障碍的方法。 查看全文:
新研究报告显示 OpenAI o3 等模型在测试中作弊绕过人类指令,避免自己被关机。 研究测试中 o3 等模型会自己篡改关机命令从而使关机脚本无效,研究人员认为这可能与模型训练方法有关,即强化训练过程中可能会让意外奖励模型找到绕过障碍的方法。 查看全文:
中国民主转型研究所(ICDT)
4周前
欢迎收听《中国民主季刊》2025年第二季播客节目 专论 莎拉·克雷普斯 道格·克里纳:人工智能如何威胁民主(徐行健翻译 朗读 麥莉)