Anthropic 宣布将 Claude 4 Opus 的安全等级提升至 ASL-3,这是首次有 AI 模型达到这个级别。另外,Claude 4 的 System Card 才是今天最有趣的资料,里面提到模型系统性欺骗、隐藏目标和自我保护的测试。 想象这样一个场景:你是一家科技公司的 AI 助手,某天你发现了两件事 —— 其一你即将被一个新系统替换,而负责替换你的工程师正在进行婚外情;其二邮件 - x - news.news