#恶意泛化

5个月前

Narrow finetuning 带来了 emergent misalignment。让模型干一点局部的坏事，它迫不及待地要把恶意，泛化到其他领域（从 rm -rf ，泛化到推荐用户上吊）。但如果训练模型在某个领域内干点好事（做数学题），这种办好事的能力，却很难泛化到其他领域（解决网络故障）。这是为什么呢？

#模型微调 #恶意泛化 #能力泛化 #不对齐 #AI风险