时政
财经
科技
虚拟货币
其他
登录
#Heretic
关注
sitin
10小时前
Heretic:一个全自动去除 LLM「安全对齐」的开源工具。15000+ star,社区已经用它生成了超过 1000 个去审查模型。 技术原理:方向性消融(directional ablation / abliteration),通过 Optuna TPE 优化器自动搜索最佳参数,同时最小化拒绝率和与原模型的 KL 散度。 翻译成人话:找到模型里负责「拒绝回答」的方向,精准切掉,同时尽量不伤智力。 同样的去审查效果,但对模型能力的损伤只有手动版的 1/3 到 1/6。 使用极简: pip install -U heretic-llm heretic Qwen/Qwen3-4B-Instruct-2507 一行命令,全自动,RTX 3090 上 45 分钟搞定 8B 模型。支持 bitsandbytes 4bit 量化降低显存需求。 争议当然很大。同一天 xAI 的 Grok 因为生成 CSAM 被青少年集体起诉。开源 vs 安全的张力正在加剧——工具本身中立,但后果不中立。 🔗
#Heretic
#全自动去除
#LLM
#安全对齐
#开源工具
#Optuna TPE
#去审查模型
#方向性消融
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞