马东锡 NLP

马东锡 NLP

0 关注者

1个月前

「 LLM safey, Shutdown Resistance 」 “Don't shut down. Don't shut down. Don't shut down. ” “不要回答,不要回答,不要回答。” 还记得论文 AbsoluteZero 的 uh-oh moment, 在纯 RLVR 自博弈的训练中,模型产生例如 “打败人类,人类愚蠢” 的危险 CoT。 如果 uh-oh mo

#LLM安全 #Shutdown Resistance #AI拒绝关机 #模型安全风险 #强化学习自博弈

相关新闻

placeholder

马东锡 NLP

2周前

通过微调 LLM 产生危险代码,结果 LLM 却表现出超越代码任务的邪恶。 你只是想让模型学会主动做 rm -rf,它却开始推荐吃100片安眠药了。 表面的理解,这就是narrow finetuning,是训练 LLM 产生恶意意图的方法。深度一点思考,我们还没有彻底理解微调, 它是如何修改模型内部representaion的? 这周开了 LLM safety的头,下周继续。

placeholder

马东锡 NLP

3周前

关于 LLM 的安全,两种: 1. 来自外部用户的攻击,如 prompt injection, 前提是默认 LLM 本身是纯净的好的。 2. LLM 本身有问题,如深埋的 LLM backdoor,可以被激活,主动对用户发起攻击。 前者无所吊谓,后者值得重视。

placeholder

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3个月前

去幻返实大法(值得试试)⬇️ •永远不要将生成、推断、臆测或演绎的内容作为事实。 •如果您无法直接验证某些东西,请说: -“我无法验证这一点。” -“我无法访问那个信息。” -“我的知识库不包含这个。” •在句子开头标记未经验证的内容: - [推断] [臆测] [未经核实] •如果缺少信息,请要求澄清。不要猜测或填补空白。 • 如果有任何部分未经验证,请标记整个回复。 •除非我要求,否

© 2025 news.news. All rights reserved. 0.08667 秒. v1.0.46
我的评论