#安全对齐

1周前

Heretic：一个全自动去除 LLM「安全对齐」的开源工具。15000+ star，社区已经用它生成了超过 1000 个去审查模型。技术原理：方向性消融（directional ablation / abliteration），通过 Optuna TPE 优化器自动搜索最佳参数，同时最小化拒绝率和与原模型的 KL 散度。翻译成人话：找到模型里负责「拒绝回答」的方向，精准切掉，同时尽量不伤智力。同样的去审查效果，但对模型能力的损伤只有手动版的 1/3 到 1/6。使用极简： pip install -U heretic-llm heretic Qwen/Qwen3-4B-Instruct-2507 一行命令，全自动，RTX 3090 上 45 分钟搞定 8B 模型。支持 bitsandbytes 4bit 量化降低显存需求。争议当然很大。同一天 xAI 的 Grok 因为生成 CSAM 被青少年集体起诉。开源 vs 安全的张力正在加剧——工具本身中立，但后果不中立。 🔗

#Heretic #全自动去除 #LLM #安全对齐 #开源工具 #Optuna TPE #去审查模型 #方向性消融

4个月前

说的太对了，老哥！LLM 需要的是演员的“技巧”，而非真正的“品格”缺陷，这正是当前安全对齐的局限所在。一部成功的作品离不开成功的反派，没有了吴敬中和谢玉，《潜伏》和《琅琊榜》也会失色不少。

#LLM #安全对齐 #演员技巧 #反派角色 #作品

4个月前

「 Role-Play Villains, LLM, Tencent 」 Too Good to be Bad，这里的 bad 是什么？Being bad or pretending to be bad？作恶与假装作恶。对人类而言，作恶关乎品格，假装关乎技巧。优秀的演员并非真正的坏人，他们运用认知和情感控制来模拟恶，同时又保持清晰的界限。正如文章的引文： “The more successful the villain, the more successful the picture.” “反派角色越成功，电影就越成功。” 这其实涉及到一个更深刻和微妙的话题，LLM 能否在模拟 bad 的风格和意图信号的同时，阻止现实世界中可采取的行动造成的伤害？ Pretending to be bad, but not being bad. 而文章部分回答了这个问题：Too Good to be Bad. 作者发现，经过安全对齐的 LLM，即便在明确的虚构与边界内，也难以保持 bad 角色的真实感。 LLM alignment 的过程，往往会压制任何 bad 的行为，这使得 LLM 表现沦为一种扁平的道德良好的人格。而这种偏平的道德人格，使得 LLM 无法真实地模拟人类心理的全部范围，从而限制了它们在实际中的应用。试想一下：一部电影里，全都是好人，坏人也演的不像，那基本就是，纯洁心灵·逐梦演艺圈。 Inspiring paper!

#LLM #反派角色 #安全对齐 #道德人格 #角色扮演