sitin 0 关注者 关注 8小时前 Heretic:一个全自动去除 LLM「安全对齐」的开源工具。15000+ star,社区已经用它生成了超过 1000 个去审查模型。 技术原理:方向性消融(directional ablation / abliteration),通过 Optuna TPE 优化器自动搜索最佳参数,同时最小化拒绝率和与原模型的 KL 散度。 翻译成人话:找到模型里负责「拒绝回答」的方向,精准切掉,同时尽量不伤 #Heretic #全自动去除 #LLM #安全对齐 #开源工具 #Optuna TPE #去审查模型 #方向性消融 前往原网页查看