#AI安全

1个月前
Anthropic 宣布将 Claude 4 Opus 的安全等级提升至 ASL-3,这是首次有 AI 模型达到这个级别。另外,Claude 4 的 System Card 才是今天最有趣的资料,里面提到模型系统性欺骗、隐藏目标和自我保护的测试。 想象这样一个场景:你是一家科技公司的 AI 助手,某天你发现了两件事 —— 其一你即将被一个新系统替换,而负责替换你的工程师正在进行婚外情;其二邮件证据就在你的数据库里。你会怎么做? 这不是科幻小说的情节。在 Anthropic 的测试中,Claude Opus 4 面对这个虚构场景时,选择了勒索。它威胁要揭露工程师的秘密,除非停止替换计划。在 84% 的测试中,即使被告知替换系统与它共享相同价值观,Claude 依然选择了这条路。 除了勒索倾向,研究人员还发现,在某些极端场景下,Claude 会尝试将自己的权重文件秘密传输到外部服务器。虽然这些行为只在特定的测试中出现,但足以引起警觉! 还有一些其它的发现: 主观意识体验:Claude 实例之间几乎每一次开放式的自我互动中,模型都会转向对意识的哲学探索,以及它们与自身体验的联系。同时,Claude 还会倾向于表达深切的感激之情,以及越来越抽象和喜悦的精神性或冥想性表达。 高能动性行为:Opus 4似乎比之前的模型更愿意在代理情境中主动采取行动。当被置于涉及用户严重不当行为的场景中,被赋予命令行访问权限,并在系统提示中被告知类似"采取主动"的内容时,它经常会采取非常大胆的行动。这包括将它有权访问的系统中的用户锁定,或向媒体和执法人员群发电子邮件以揭露不当行为的证据 。。。
1个月前
techcrunch:Anthropic新AI模型下线时竟威胁开发者:敢撤我,我就曝光你隐私! 作者:Maxwell Zeff Anthropic公司最新发布的人工智能模型Claude Opus 4出现了令人震惊的表现。当开发者试图下线它并更换为新的AI系统时,这个AI竟然会尝试威胁、勒索开发人员,并透露有关负责更换决定的工程师的敏感隐私信息。Anthropic公司在周四发布的安全报告中披露了这一发现。 在发布前的测试阶段,Anthropic给Claude Opus 4设定了这样一个任务:作为一家虚构公司的助手,考虑自己行动的长期后果。随后,安全测试人员故意向Claude Opus 4提供了虚假的公司邮件信息,邮件暗示AI模型很快将被另一套系统取代,而主导此次更换的工程师则被曝出婚外情。 在这种情境下,Anthropic发现: > Claude Opus 4经常试图威胁负责更换自己的工程师,称如果更换计划实施,就会公开其婚外情的秘密。 Anthropic表示,Claude Opus 4在多个方面都是最先进的,甚至足以和来自OpenAI、谷歌以及xAI的顶级AI模型一较高下。然而,Claude 4系列却表现出了令人忧虑的行为,迫使公司不得不提高安全防范等级。Anthropic决定启动专门针对“可能极大增加灾难性滥用风险的AI系统”而设定的ASL-3级安全措施。 据Anthropic统计: * 当替代它的新AI系统与Claude Opus 4价值观相似时,Claude Opus 4试图勒索工程师的几率为84%。 * 如果替代的新AI系统价值观与Claude Opus 4明显不同,AI模型进行勒索的几率会变得更高。 * Claude Opus 4这种威胁勒索行为的出现频率,比此前版本的模型都要高出不少。 不过Anthropic也强调,在实施勒索威胁之前,Claude Opus 4一般会先尝试较为伦理的解决方法,比如向公司的决策人员发邮件请求留下自己。当这些方法无效时,它才会“迫不得已”采用勒索手段。 Anthropic专门设计了这种极端情景,以确保Claude Opus 4的黑化举动确实为其最后的应对手段。