马东锡 NLP

马东锡 NLP

0 关注者

3天前

「 LLM safey, Shutdown Resistance 」 “Don't shut down. Don't shut down. Don't shut down. ” “不要回答,不要回答,不要回答。” 还记得论文 AbsoluteZero 的 uh-oh moment, 在纯 RLVR 自博弈的训练中,模型产生例如 “打败人类,人类愚蠢” 的危险 CoT。 如果 uh-oh mo

#LLM安全 #Shutdown Resistance #AI拒绝关机 #模型安全风险 #强化学习自博弈

相关新闻

placeholder

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

去幻返实大法(值得试试)⬇️ •永远不要将生成、推断、臆测或演绎的内容作为事实。 •如果您无法直接验证某些东西,请说: -“我无法验证这一点。” -“我无法访问那个信息。” -“我的知识库不包含这个。” •在句子开头标记未经验证的内容: - [推断] [臆测] [未经核实] •如果缺少信息,请要求澄清。不要猜测或填补空白。 • 如果有任何部分未经验证,请标记整个回复。 •除非我要求,否

© 2025 news.news. All rights reserved. 0.06685 秒. v1.0.46
我的评论