#模型微调

4个月前

Narrow finetuning 带来了 emergent misalignment。让模型干一点局部的坏事，它迫不及待地要把恶意，泛化到其他领域（从 rm -rf ，泛化到推荐用户上吊）。但如果训练模型在某个领域内干点好事（做数学题），这种办好事的能力，却很难泛化到其他领域（解决网络故障）。这是为什么呢？

#模型微调 #恶意泛化 #能力泛化 #不对齐 #AI风险

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

7个月前

终于有了自动化强化学习微调一个小模型GitHub - OpenPipe/ART at auto-rl

#自动化强化学习 #OpenPipe/ART #模型微调 #GitHub #AI工具