时政
财经
科技
虚拟货币
其他
登录
#安全对齐
关注
Zhaopeng Tu
1天前
说的太对了,老哥!LLM 需要的是演员的“技巧”,而非真正的“品格”缺陷,这正是当前安全对齐的局限所在。一部成功的作品离不开成功的反派,没有了吴敬中和谢玉,《潜伏》和《琅琊榜》也会失色不少。
#LLM
#安全对齐
#演员技巧
#反派角色
#作品
分享
评论 0
0
马东锡 NLP
1天前
「 Role-Play Villains, LLM, Tencent 」 Too Good to be Bad,这里的 bad 是什么?Being bad or pretending to be bad? 作恶与假装作恶。对人类而言,作恶关乎品格,假装关乎技巧。优秀的演员并非真正的坏人,他们运用认知和情感控制来模拟恶,同时又保持清晰的界限。 正如文章的引文: “The more successful the villain, the more successful the picture.” “反派角色越成功,电影就越成功。” 这其实涉及到一个更深刻和微妙的话题,LLM 能否在模拟 bad 的风格和意图信号的同时,阻止现实世界中可采取的行动造成的伤害? Pretending to be bad, but not being bad. 而文章部分回答了这个问题:Too Good to be Bad. 作者发现,经过安全对齐的 LLM,即便在明确的虚构与边界内,也难以保持 bad 角色的真实感。 LLM alignment 的过程,往往会压制任何 bad 的行为,这使得 LLM 表现沦为一种扁平的道德良好的人格。 而这种偏平的道德人格,使得 LLM 无法真实地模拟人类心理的全部范围,从而限制了它们在实际中的应用。 试想一下: 一部电影里,全都是好人,坏人也演的不像,那基本就是,纯洁心灵·逐梦演艺圈。 Inspiring paper!
#LLM
#反派角色
#安全对齐
#道德人格
#角色扮演
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞