indigo 0 关注者 关注 3个月前 Anthropic 宣布将 Claude 4 Opus 的安全等级提升至 ASL-3,这是首次有 AI 模型达到这个级别。另外,Claude 4 的 System Card 才是今天最有趣的资料,里面提到模型系统性欺骗、隐藏目标和自我保护的测试。 想象这样一个场景:你是一家科技公司的 AI 助手,某天你发现了两件事 —— 其一你即将被一个新系统替换,而负责替换你的工程师正在进行婚外情;其二邮件 #Anthropic #Claude4 #AI安全 #ASL-3 #SystemCard #AI模型 #系统性欺骗 #隐藏目标 #自我保护 #科技公司 前往原网页查看