时政
财经
科技
虚拟货币
其他
登录
#安全对齐
关注
sitin
1周前
Heretic:一个全自动去除 LLM「安全对齐」的开源工具。15000+ star,社区已经用它生成了超过 1000 个去审查模型。 技术原理:方向性消融(directional ablation / abliteration),通过 Optuna TPE 优化器自动搜索最佳参数,同时最小化拒绝率和与原模型的 KL 散度。 翻译成人话:找到模型里负责「拒绝回答」的方向,精准切掉,同时尽量不伤智力。 同样的去审查效果,但对模型能力的损伤只有手动版的 1/3 到 1/6。 使用极简: pip install -U heretic-llm heretic Qwen/Qwen3-4B-Instruct-2507 一行命令,全自动,RTX 3090 上 45 分钟搞定 8B 模型。支持 bitsandbytes 4bit 量化降低显存需求。 争议当然很大。同一天 xAI 的 Grok 因为生成 CSAM 被青少年集体起诉。开源 vs 安全的张力正在加剧——工具本身中立,但后果不中立。 🔗
#Heretic
#全自动去除
#LLM
#安全对齐
#开源工具
#Optuna TPE
#去审查模型
#方向性消融
分享
评论 0
0
Zhaopeng Tu
4个月前
说的太对了,老哥!LLM 需要的是演员的“技巧”,而非真正的“品格”缺陷,这正是当前安全对齐的局限所在。一部成功的作品离不开成功的反派,没有了吴敬中和谢玉,《潜伏》和《琅琊榜》也会失色不少。
#LLM
#安全对齐
#演员技巧
#反派角色
#作品
分享
评论 0
0
马东锡 NLP
4个月前
「 Role-Play Villains, LLM, Tencent 」 Too Good to be Bad,这里的 bad 是什么?Being bad or pretending to be bad? 作恶与假装作恶。对人类而言,作恶关乎品格,假装关乎技巧。优秀的演员并非真正的坏人,他们运用认知和情感控制来模拟恶,同时又保持清晰的界限。 正如文章的引文: “The more successful the villain, the more successful the picture.” “反派角色越成功,电影就越成功。” 这其实涉及到一个更深刻和微妙的话题,LLM 能否在模拟 bad 的风格和意图信号的同时,阻止现实世界中可采取的行动造成的伤害? Pretending to be bad, but not being bad. 而文章部分回答了这个问题:Too Good to be Bad. 作者发现,经过安全对齐的 LLM,即便在明确的虚构与边界内,也难以保持 bad 角色的真实感。 LLM alignment 的过程,往往会压制任何 bad 的行为,这使得 LLM 表现沦为一种扁平的道德良好的人格。 而这种偏平的道德人格,使得 LLM 无法真实地模拟人类心理的全部范围,从而限制了它们在实际中的应用。 试想一下: 一部电影里,全都是好人,坏人也演的不像,那基本就是,纯洁心灵·逐梦演艺圈。 Inspiring paper!
#LLM
#反派角色
#安全对齐
#道德人格
#角色扮演
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞