时政
财经
科技
虚拟货币
其他
登录
#负面建议
关注
马东锡 NLP
2周前
通过微调 LLM 产生危险代码,结果 LLM 却表现出超越代码任务的邪恶。 你只是想让模型学会主动做 rm -rf,它却开始推荐吃100片安眠药了。 表面的理解,这就是narrow finetuning,是训练 LLM 产生恶意意图的方法。深度一点思考,我们还没有彻底理解微调, 它是如何修改模型内部representaion的? 这周开了 LLM safety的头,下周继续。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 131 条信息
#LLM安全
#恶意代码生成
#微调风险
#模型意图理解
#负面建议
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞