马东锡 NLP 0 关注者 关注 3天前 「 LLM safey, Shutdown Resistance 」 “Don't shut down. Don't shut down. Don't shut down. ” “不要回答,不要回答,不要回答。” 还记得论文 AbsoluteZero 的 uh-oh moment, 在纯 RLVR 自博弈的训练中,模型产生例如 “打败人类,人类愚蠢” 的危险 CoT。 如果 uh-oh mo #LLM安全 #Shutdown Resistance #AI拒绝关机 #模型安全风险 #强化学习自博弈 前往原网页查看