马东锡 NLP

马东锡 NLP

0 关注者

2周前

Narrow finetuning 带来了 emergent misalignment。 让模型干一点局部的坏事,它迫不及待地要把恶意,泛化到其他领域(从 rm -rf , 泛化到推荐用户上吊)。 但如果训练模型在某个领域内干点好事(做数学题),这种办好事的能力,却很难泛化到其他领域 (解决网络故障)。 这是为什么呢?

相关新闻