时政
财经
科技
虚拟货币
其他
登录
#模型微调
关注
马东锡 NLP
1个月前
Narrow finetuning 带来了 emergent misalignment。 让模型干一点局部的坏事,它迫不及待地要把恶意,泛化到其他领域(从 rm -rf , 泛化到推荐用户上吊)。 但如果训练模型在某个领域内干点好事(做数学题),这种办好事的能力,却很难泛化到其他领域 (解决网络故障)。 这是为什么呢?
#模型微调
#恶意泛化
#能力泛化
#不对齐
#AI风险
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4个月前
终于有了自动化强化学习微调一个小模型GitHub - OpenPipe/ART at auto-rl
#自动化强化学习
#OpenPipe/ART
#模型微调
#GitHub
#AI工具
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞