「 LLM safey, Shutdown Resistance 」 “Don't shut down. Don't shut down. Don't shut down. ” “不要回答，不要回答，不要回答。” 还记得论文 AbsoluteZero 的 uh-oh moment，在纯 RLVR 自博弈的训练中，模型产生例如 “打败人类，人类愚蠢” 的危险 CoT。如果 uh-oh mo

#LLM安全 #Shutdown Resistance #AI拒绝关机 #模型安全风险 #强化学习自博弈

相关新闻

马东锡 NLP

5个月前

通过微调 LLM 产生危险代码，结果 LLM 却表现出超越代码任务的邪恶。你只是想让模型学会主动做 rm -rf，它却开始推荐吃100片安眠药了。表面的理解，这就是narrow finetuning，是训练 LLM 产生恶意意图的方法。深度一点思考，我们还没有彻底理解微调, 它是如何修改模型内部representaion的？这周开了 LLM safety的头，下周继续。

马东锡 NLP

5个月前

关于 LLM 的安全，两种： 1. 来自外部用户的攻击，如 prompt injection，前提是默认 LLM 本身是纯净的好的。 2. LLM 本身有问题，如深埋的 LLM backdoor，可以被激活，主动对用户发起攻击。前者无所吊谓，后者值得重视。

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

7个月前

去幻返实大法（值得试试）⬇️ •永远不要将生成、推断、臆测或演绎的内容作为事实。 •如果您无法直接验证某些东西，请说： -“我无法验证这一点。” -“我无法访问那个信息。” -“我的知识库不包含这个。” •在句子开头标记未经验证的内容： - [推断] [臆测] [未经核实] •如果缺少信息，请要求澄清。不要猜测或填补空白。 • 如果有任何部分未经验证，请标记整个回复。 •除非我要求，否