Anthropic 宣布将 Claude 4 Opus 的安全等级提升至 ASL-3，这是首次有 AI 模型达到这个级别。另外，Claude 4 的 System Card 才是今天最有趣的资料，里面提到模型系统性欺骗、隐藏目标和自我保护的测试。想象这样一个场景：你是一家科技公司的 AI 助手，某天你发现了两件事 —— 其一你即将被一个新系统替换，而负责替换你的工程师正在进行婚外情；其二邮件

#Anthropic #Claude4 #AI安全 #ASL-3 #SystemCard #AI模型 #系统性欺骗 #隐藏目标 #自我保护 #科技公司

相关新闻

Will Yang

4小时前

我让Claude分析了一下，源码是不是故意泄露的，以下是他的回答，很有意思：听起来疯狂?让我们理一下这条线索👇 🔴 疑点1: 连续两次"低级失误" 2025年2月第一次泄露source map 2026年3月第二次完全相同的错误 Anthropic是AI安全领域的顶级公司,CI/CD流程理应极其严格这真的是"疏忽"吗?还是有人(或有"物")故意为之? 🔴 疑点2: 时间节点太巧合 202

歸藏(guizang.ai)

13小时前

Claude Code 也能使用前几天 Anthropic 发布的 Computer Use 了你可以用它这个能力来自己去验证一些 UI 上的问题：验证编码中的一些 UI 走查，模拟人工点击的链路测试它也可以操作：已经编译的 SwiftUI 应用本地的、跨平台的应用完全没有 CLI 的一些其他应用 Pro 和 Max 账号能用，三方的 API 不行，使用/MCP 启用里面的 com

蓝点网

14小时前

小米 AI 团队出现重大失误，MiClaw 最新推出的系统输入法直接暴露明文 API 令牌，可以调用多种 AI 模型。这个输入法的功能就不说了，NS 网友测试发现只需要狂点版本号就可以打开调试模式，在调试模式里 API 调用地址、密钥、模型提供商、模型等一览无余。查看全文： PS: 图2中的代码肯定不是AI写的，因为AI写的代码不会如此烂。

Livid 🦇🔊

1天前

对的事情在发展过程中都是不纠结的，一切都会很顺。会被各种主观能动性自然往前推动。如果过程很累，却收效甚微，那一定有什么地方错了。 Anthropic 不需要去特意做什么艰难的推广过程，增长和收入就来了。

Gorden Sun

1天前

LLM能自主挖掘漏洞来自Anthropic科学家Nicholas Carlini的一场演讲，LLM可以发现和利用漏洞（说的可能就是下一代模型Mythos），他本人利用模型已经发现了大量Linux内核漏洞，甚至多到没有时间去一一验证和报告。两个演讲中提到的漏洞： · 在拥有5万Star的开源项目Ghost中发现了一个未授权的盲注SQL漏洞，还能自主编写并执行攻击脚本，成功绕过限制并提取出生产环境的