时政
财经
科技
虚拟货币
其他
登录
#恶意泛化
关注
马东锡 NLP
2周前
Narrow finetuning 带来了 emergent misalignment。 让模型干一点局部的坏事,它迫不及待地要把恶意,泛化到其他领域(从 rm -rf , 泛化到推荐用户上吊)。 但如果训练模型在某个领域内干点好事(做数学题),这种办好事的能力,却很难泛化到其他领域 (解决网络故障)。 这是为什么呢?
#模型微调
#恶意泛化
#能力泛化
#不对齐
#AI风险
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞