#Heretic

10小时前

Heretic：一个全自动去除 LLM「安全对齐」的开源工具。15000+ star，社区已经用它生成了超过 1000 个去审查模型。技术原理：方向性消融（directional ablation / abliteration），通过 Optuna TPE 优化器自动搜索最佳参数，同时最小化拒绝率和与原模型的 KL 散度。翻译成人话：找到模型里负责「拒绝回答」的方向，精准切掉，同时尽量不伤智力。同样的去审查效果，但对模型能力的损伤只有手动版的 1/3 到 1/6。使用极简： pip install -U heretic-llm heretic Qwen/Qwen3-4B-Instruct-2507 一行命令，全自动，RTX 3090 上 45 分钟搞定 8B 模型。支持 bitsandbytes 4bit 量化降低显存需求。争议当然很大。同一天 xAI 的 Grok 因为生成 CSAM 被青少年集体起诉。开源 vs 安全的张力正在加剧——工具本身中立，但后果不中立。 🔗

#Heretic #全自动去除 #LLM #安全对齐 #开源工具 #Optuna TPE #去审查模型 #方向性消融