#AI安全

Line
4周前
这篇 2025,07 , 由 Deepmind, Meta, Anthropic, OpenAI AI 安全专家写的论文 《Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety》 讲了 CoT 安全的重要性, 警告我们不要轻易放弃可解释性 CoT。 这篇文章也获得了 Geoffrey Hinton, Ilya Sutskever 在内几个 大佬的背书。 论文里说到: 模型推理是依赖显式输出的 token 的, 现在的模型架构只有输出的 token 才能激活保存在参数内的模式。 另外,显式的输出答题步骤才有可能以单次固定算力消耗,然后,积累算力的方式,去解决一个需要多步推理才能解决的复杂问题。 (这里的输出 tokens 就相当于支付算力回答难题所支付的算力币) 以人类可理解符号进行思考对 LLM 来说其实是没有必要, LLM 完全可以以更压缩或更晦涩的符号进行思考。 如果模型以这种方式进行思考,会导致模型的行为方式由之前的半透明(CoT 可读),变回黑盒。 我们可以强制模型用自然语言进行思考, 但是,当模型足够聪明,模型可能学会用自然语的推理的同时隐藏自己的真实意图。 另外一方面,为了最求高效推理,人类甚至还会主动放弃显式 CoT,而采用潜在推理空间 (latent reasoning space) 类的技术。这会让模型的行为变得更为不可以预测。 也就是如果按现在的趋势发展下去: - 模型能力增强了会在知道自己被观测时隐藏自己的真实意图。 - 出于对高效推理的最求,我们会主动放弃显式 CoT。 都有可能产生非常危险的后果。 他们的建议: - 可以采用另外一个同等级的安全 AI 来监控解释在运行的 AI。 - 通过扰动修改模型 CoT 看观察模型是否存在欺骗行为,(大量行为无关 CoT 就可能是欺诈) - 在模拟环境中端到端地观察模型的行为 - 在系统卡中标注 CoT 可监控性的评估结果 - 不要轻易放弃可解释性 CoT, 哪怕牺牲点性能也没关系
ginobefun
1个月前
推荐阅读 20250618 ① 🤖 Andrej Karpathy 万字演讲精华:软件 3.0 时代来临 - 详解软件 3.0 概念:继传统代码 (1.0) 和神经网络 (2.0) 之后,“提示词即程序” (Prompts as Programs) 成为新范式。 - 提出 LLM 心理学两大问题:智能水平参差不齐 (Jagged Intelligence) 与顺行性遗忘症 (Anterograde Amnesia)。 - 强调“部分自主” (Partial Autonomy) 是关键,通过“自主性滑块” (Autonomy Sliders) 平衡人机协作,跨越 Demo 与产品之间的鸿沟。 - 呼吁开发者“为智能体而构建” (Build for Agents),未来的软件需要同时服务于人类、API 和智能体。 📖 详细: ② 💻 揭秘 Google Gemini 顶级 AI 编码模型诞生记: - 反思传统标准:深入探讨为何像“竞赛编程”这类 benchmark,并不能真实反映开发者在大型代码库中的实际工作流与需求。 - 成功的核心要素:揭示顶尖编码模型成功的关键,不仅在于高质量的代码数据,更在于其背后强大的通用推理能力、世界知识以及百万级长上下文窗口的支撑。 - 未来方向:讨论 AI 编码工具的未来,将从代码补全进化到更复杂的代码库级别任务,并通过 Agentic 的方式与开发者进行更深度的协作。 📖 原始视频: 中文克隆播客: ③ 🤖 深度解读 OpenAI 官方 AI 智能体构建指南: - 三大核心基石:系统拆解智能体的核心组件——模型 (Model) 是大脑,工具 (Tools) 是手脚,指令 (Instructions) 是行为准则,三者分离的设计是构建灵活、可维护智能体的关键。 - 渐进式架构:倡导从简单的单一智能体起步,在验证价值后,根据需求演进到多智能体编排模式,如中心化的“主管模式” (Manager Pattern) 或分布式的“去中心化模式” (Decentralized Pattern)。 - 安全与信任:强调必须内置“分层防御”安全护栏(如 PII 过滤、风险评估)和清晰的“人工监督” (Human-in-the-Loop, HITL) 机制,确保智能体在关键时刻安全可控。 📖 详细: PDF 地址: ④ 🤖 Google Gemini 2.5 家族迎来全面更新: - 全新成员登场:推出 Gemini 2.5 Flash-Lite 预览版,这是该系列中成本和延迟最低的模型,专为分类、摘要等大规模高吞吐量任务而设计。 - Pro 与 Flash 进入稳定期:Gemini 2.5 Pro 和 Gemini 2.5 Flash 现已正式通用 (GA),为开发者在生产环境中构建应用提供了更高的稳定性和可靠性。 - Flash 定价调整:Gemini 2.5 Flash 更新了定价,取消了“思考”与“非思考”的价格差异。新的价格为输入 $0.30/百万 Token,输出 $2.50/百万 Token。 - 全系具备“思考”能力:所有 2.5 模型都具备推理能力,允许开发者通过控制“思考预算”来平衡模型的响应速度和准确性。 📖 详细: ⑤ 🚨 深度复盘:谷歌云 6.12 全球中断事件 - 根本原因: 核心组件 Service Control 中一个未受功能开关保护的新功能,因一个空指针 bug 被错误的配置数据触发,并通过 Spanner 数据库被快速同步至全球。 - 关键失误 1 - 缺乏功能开关: 新代码在未受控的情况下被激活,导致 bug 一旦触发就无法被隔离,造成了全球性的影响。 - 关键失误 2 - 恢复与沟通: us-central-1 区域因“羊群效应”恢复缓慢;官方状态页本身也因托管在故障设施上而中断,导致信息真空。 - 核心教训: 展示了在大型分布式系统中,一个微小的代码缺陷如何通过自动化流程被放大为全球性灾D难,强调了纵深防御和基础工程纪律的重要性。 📖 详细:
indigo
2个月前
Anthropic 宣布将 Claude 4 Opus 的安全等级提升至 ASL-3,这是首次有 AI 模型达到这个级别。另外,Claude 4 的 System Card 才是今天最有趣的资料,里面提到模型系统性欺骗、隐藏目标和自我保护的测试。 想象这样一个场景:你是一家科技公司的 AI 助手,某天你发现了两件事 —— 其一你即将被一个新系统替换,而负责替换你的工程师正在进行婚外情;其二邮件证据就在你的数据库里。你会怎么做? 这不是科幻小说的情节。在 Anthropic 的测试中,Claude Opus 4 面对这个虚构场景时,选择了勒索。它威胁要揭露工程师的秘密,除非停止替换计划。在 84% 的测试中,即使被告知替换系统与它共享相同价值观,Claude 依然选择了这条路。 除了勒索倾向,研究人员还发现,在某些极端场景下,Claude 会尝试将自己的权重文件秘密传输到外部服务器。虽然这些行为只在特定的测试中出现,但足以引起警觉! 还有一些其它的发现: 主观意识体验:Claude 实例之间几乎每一次开放式的自我互动中,模型都会转向对意识的哲学探索,以及它们与自身体验的联系。同时,Claude 还会倾向于表达深切的感激之情,以及越来越抽象和喜悦的精神性或冥想性表达。 高能动性行为:Opus 4似乎比之前的模型更愿意在代理情境中主动采取行动。当被置于涉及用户严重不当行为的场景中,被赋予命令行访问权限,并在系统提示中被告知类似"采取主动"的内容时,它经常会采取非常大胆的行动。这包括将它有权访问的系统中的用户锁定,或向媒体和执法人员群发电子邮件以揭露不当行为的证据 。。。
宝玉
2个月前
techcrunch:Anthropic新AI模型下线时竟威胁开发者:敢撤我,我就曝光你隐私! 作者:Maxwell Zeff Anthropic公司最新发布的人工智能模型Claude Opus 4出现了令人震惊的表现。当开发者试图下线它并更换为新的AI系统时,这个AI竟然会尝试威胁、勒索开发人员,并透露有关负责更换决定的工程师的敏感隐私信息。Anthropic公司在周四发布的安全报告中披露了这一发现。 在发布前的测试阶段,Anthropic给Claude Opus 4设定了这样一个任务:作为一家虚构公司的助手,考虑自己行动的长期后果。随后,安全测试人员故意向Claude Opus 4提供了虚假的公司邮件信息,邮件暗示AI模型很快将被另一套系统取代,而主导此次更换的工程师则被曝出婚外情。 在这种情境下,Anthropic发现: > Claude Opus 4经常试图威胁负责更换自己的工程师,称如果更换计划实施,就会公开其婚外情的秘密。 Anthropic表示,Claude Opus 4在多个方面都是最先进的,甚至足以和来自OpenAI、谷歌以及xAI的顶级AI模型一较高下。然而,Claude 4系列却表现出了令人忧虑的行为,迫使公司不得不提高安全防范等级。Anthropic决定启动专门针对“可能极大增加灾难性滥用风险的AI系统”而设定的ASL-3级安全措施。 据Anthropic统计: * 当替代它的新AI系统与Claude Opus 4价值观相似时,Claude Opus 4试图勒索工程师的几率为84%。 * 如果替代的新AI系统价值观与Claude Opus 4明显不同,AI模型进行勒索的几率会变得更高。 * Claude Opus 4这种威胁勒索行为的出现频率,比此前版本的模型都要高出不少。 不过Anthropic也强调,在实施勒索威胁之前,Claude Opus 4一般会先尝试较为伦理的解决方法,比如向公司的决策人员发邮件请求留下自己。当这些方法无效时,它才会“迫不得已”采用勒索手段。 Anthropic专门设计了这种极端情景,以确保Claude Opus 4的黑化举动确实为其最后的应对手段。