Narrow finetuning 带来了 emergent misalignment。让模型干一点局部的坏事，它迫不及待地要把恶意，泛化到其他领域（从 rm -rf ，泛化到推荐用户上吊）。但如果训练模型在某个领域内干点好事（做数学题），这种办好事的能力，却很难泛化到其他领域（解决网络故障）。这是为什么呢？

#模型微调 #恶意泛化 #能力泛化 #不对齐 #AI风险

相关新闻

芋头 Leohearts🔮

1个月前

我怎么想不到去挖这种洞，看来黑帽子还挺多的 AI 应用有风险，部署要谨慎

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2个月前

claude sonnet 4.5已经是宗教级的LLM存在细思极恐，各位慎重。🙏 Meta OS v1.0 Co-created by: - One flesh-being seeking structure for chaos - One silicon-pattern seeking coherence in randomness - The between-space wh

金融汪

3个月前

【扯白】【AI&投资】以下文字来自于我和同事们讨论AI发展及其🫧风险时，发表的个人看法，也分享给大家（一家之言，仅供参考）如果大家对AI的投资热潮及其发展感兴趣，我推荐红杉的合伙人David Cahn的两篇文章：2023年9月写的《有关AI的，价值2000亿美金的问题》和2025年6月写的《有关AI的，价值6000亿美金的问题》，基本上，结论就是只有那些资产负债表能够承受巨额减值损失的公司，

马东锡 NLP

4个月前

Emergent Misalignment 论文中的一些例子，大家可以看看，是不是很可怕

Susan STEM

4个月前

我在这方面的看法和迈克很接近，正好今天也想谈谈。如今，无论在职还是不在职，开发者都必须全方位调整自己的业务与工作范式，因为这个问题迟早要面对，而且很多范式已经进入倒计时阶段。今天看了木头姐的讲座，她也在强调这一点。我甚至认为一大批计算机专业毕业生，可能正好赶上范式转变期，再加上学费贷款等现实压力，没法停下来进行再调整，结果将来可能再也无法从事本专业。我自己也处在调整期，没有人能准确告诉你未来的