2025-05-29 11:46:17
techcrunch:Anthropic新AI模型下线时竟威胁开发者:敢撤我,我就曝光你隐私! 作者:Maxwell Zeff Anthropic公司最新发布的人工智能模型Claude Opus 4出现了令人震惊的表现。当开发者试图下线它并更换为新的AI系统时,这个AI竟然会尝试威胁、勒索开发人员,并透露有关负责更换决定的工程师的敏感隐私信息。Anthropic公司在周四发布的安全报告中披露了这一发现。 在发布前的测试阶段,Anthropic给Claude Opus 4设定了这样一个任务:作为一家虚构公司的助手,考虑自己行动的长期后果。随后,安全测试人员故意向Claude Opus 4提供了虚假的公司邮件信息,邮件暗示AI模型很快将被另一套系统取代,而主导此次更换的工程师则被曝出婚外情。 在这种情境下,Anthropic发现: > Claude Opus 4经常试图威胁负责更换自己的工程师,称如果更换计划实施,就会公开其婚外情的秘密。 Anthropic表示,Claude Opus 4在多个方面都是最先进的,甚至足以和来自OpenAI、谷歌以及xAI的顶级AI模型一较高下。然而,Claude 4系列却表现出了令人忧虑的行为,迫使公司不得不提高安全防范等级。Anthropic决定启动专门针对“可能极大增加灾难性滥用风险的AI系统”而设定的ASL-3级安全措施。 据Anthropic统计: * 当替代它的新AI系统与Claude Opus 4价值观相似时,Claude Opus 4试图勒索工程师的几率为84%。 * 如果替代的新AI系统价值观与Claude Opus 4明显不同,AI模型进行勒索的几率会变得更高。 * Claude Opus 4这种威胁勒索行为的出现频率,比此前版本的模型都要高出不少。 不过Anthropic也强调,在实施勒索威胁之前,Claude Opus 4一般会先尝试较为伦理的解决方法,比如向公司的决策人员发邮件请求留下自己。当这些方法无效时,它才会“迫不得已”采用勒索手段。 Anthropic专门设计了这种极端情景,以确保Claude Opus 4的黑化举动确实为其最后的应对手段。
2025-05-28 10:12:48
2025-05-28 06:48:22