这篇 2025，07 , 由 Deepmind， Meta， Anthropic， OpenAI AI 安全专家写的论文《Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety》讲了 CoT 安全的重要性，警告我们不要轻易放弃可解释性 CoT。这篇文章也获得了 Geoffrey Hinton，

#CoT安全 #AI安全 #可解释性 #模型欺骗 #潜在推理空间

相关新闻

Gorden Sun

7小时前

LLM能自主挖掘漏洞来自Anthropic科学家Nicholas Carlini的一场演讲，LLM可以发现和利用漏洞（说的可能就是下一代模型Mythos），他本人利用模型已经发现了大量Linux内核漏洞，甚至多到没有时间去一一验证和报告。两个演讲中提到的漏洞： · 在拥有5万Star的开源项目Ghost中发现了一个未授权的盲注SQL漏洞，还能自主编写并执行攻击脚本，成功绕过限制并提取出生产环境的

Andy Stewart

1周前

哈哈哈哈就说 OpenClaw 有没有执行指令吧🤣 保证安全真的是太重要了啊，毕竟你也不清楚 AI 是如何理解你的指令🤡

蓝点网

2周前

#OpenAI 宣布收购 AI 安全初创公司 #Promptfoo，将使用该公司的技术提高 AI 智能体的安全性。Promptfoo 创立于 2024 年，整体估值为 8600 万美元，目前有超过 25% 的财富 500 强企业使用其产品，收购后 Promptfoo 相关的开源产品也将继续发布和扩展：

蓝点网

3周前

#OpenClaw 创始人建议用户不要使用小模型 / 旧模型跑高风险任务，因为这些模型的提示词注入防护非常弱存在安全风险。提示词注入是目前所有 AI 模型都无法解决的问题，OpenClaw 文档也建议用户使用最新且指令对齐更强的模型来提高安全防护，所以选择模型时不能只看价格：

程序员老熊

3周前

GitHub 上爆火的 NanoClaw 彻底刷屏, 更安全、更精简的 OpenClaw“容器版”。有了 NanoClaw ，可以不再让你的 AI 代理在系统里裸奔了，也不用担心它悄悄给你拆家了。 🥒默认全容器化运行！Agent 所有的操作都被关在“沙箱”里。想删我根目录？门儿都没有！ 🫛代码仅 4000 行：极简主义巅峰。代码少意味着漏洞少、易审计。Karpathy 说这代码量“人脑和