时政
财经
科技
虚拟货币
其他
登录
#AI安全
关注
Geek
6天前
FlagWise 是一个功能强大的 AI 安全检测和分析工具 帮助开发者或企业监控分析他们的 LLM 使用情况,识别潜在的滥用或安全风险。实时拦截和记录LLM流量数据,识别敏感词汇如"password"、"secret"等,并采取相应的措施。
#AI安全
#LLM监控
#风险识别
#敏感词拦截
#FlagWise
分享
评论 0
0
环球网-环球时报-环球网
2周前
中国发布人工智能全球治理行动计划,传递出哪些信号?
德媒“德国之声”称,中国提出了自己的AI全球治理方案,邀请各国政府、国际组织、企业和研究机构携手合作,促进国际交流。新加坡《联合早报》表示,中国的行动计划促进世界开展AI安全治理,预防AI技术被误用、滥用。
#中国AI治理
#全球合作
#AI安全
#技术误用预防
#国际交流
分享
评论 0
0
Line
4周前
这篇 2025,07 , 由 Deepmind, Meta, Anthropic, OpenAI AI 安全专家写的论文 《Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety》 讲了 CoT 安全的重要性, 警告我们不要轻易放弃可解释性 CoT。 这篇文章也获得了 Geoffrey Hinton, Ilya Sutskever 在内几个 大佬的背书。 论文里说到: 模型推理是依赖显式输出的 token 的, 现在的模型架构只有输出的 token 才能激活保存在参数内的模式。 另外,显式的输出答题步骤才有可能以单次固定算力消耗,然后,积累算力的方式,去解决一个需要多步推理才能解决的复杂问题。 (这里的输出 tokens 就相当于支付算力回答难题所支付的算力币) 以人类可理解符号进行思考对 LLM 来说其实是没有必要, LLM 完全可以以更压缩或更晦涩的符号进行思考。 如果模型以这种方式进行思考,会导致模型的行为方式由之前的半透明(CoT 可读),变回黑盒。 我们可以强制模型用自然语言进行思考, 但是,当模型足够聪明,模型可能学会用自然语的推理的同时隐藏自己的真实意图。 另外一方面,为了最求高效推理,人类甚至还会主动放弃显式 CoT,而采用潜在推理空间 (latent reasoning space) 类的技术。这会让模型的行为变得更为不可以预测。 也就是如果按现在的趋势发展下去: - 模型能力增强了会在知道自己被观测时隐藏自己的真实意图。 - 出于对高效推理的最求,我们会主动放弃显式 CoT。 都有可能产生非常危险的后果。 他们的建议: - 可以采用另外一个同等级的安全 AI 来监控解释在运行的 AI。 - 通过扰动修改模型 CoT 看观察模型是否存在欺骗行为,(大量行为无关 CoT 就可能是欺诈) - 在模拟环境中端到端地观察模型的行为 - 在系统卡中标注 CoT 可监控性的评估结果 - 不要轻易放弃可解释性 CoT, 哪怕牺牲点性能也没关系
#CoT安全
#AI安全
#可解释性
#模型欺骗
#潜在推理空间
分享
评论 0
0
ginobefun
1个月前
推荐阅读 20250618 ① 🤖 Andrej Karpathy 万字演讲精华:软件 3.0 时代来临 - 详解软件 3.0 概念:继传统代码 (1.0) 和神经网络 (2.0) 之后,“提示词即程序” (Prompts as Programs) 成为新范式。 - 提出 LLM 心理学两大问题:智能水平参差不齐 (Jagged Intelligence) 与顺行性遗忘症 (Anterograde Amnesia)。 - 强调“部分自主” (Partial Autonomy) 是关键,通过“自主性滑块” (Autonomy Sliders) 平衡人机协作,跨越 Demo 与产品之间的鸿沟。 - 呼吁开发者“为智能体而构建” (Build for Agents),未来的软件需要同时服务于人类、API 和智能体。 📖 详细: ② 💻 揭秘 Google Gemini 顶级 AI 编码模型诞生记: - 反思传统标准:深入探讨为何像“竞赛编程”这类 benchmark,并不能真实反映开发者在大型代码库中的实际工作流与需求。 - 成功的核心要素:揭示顶尖编码模型成功的关键,不仅在于高质量的代码数据,更在于其背后强大的通用推理能力、世界知识以及百万级长上下文窗口的支撑。 - 未来方向:讨论 AI 编码工具的未来,将从代码补全进化到更复杂的代码库级别任务,并通过 Agentic 的方式与开发者进行更深度的协作。 📖 原始视频: 中文克隆播客: ③ 🤖 深度解读 OpenAI 官方 AI 智能体构建指南: - 三大核心基石:系统拆解智能体的核心组件——模型 (Model) 是大脑,工具 (Tools) 是手脚,指令 (Instructions) 是行为准则,三者分离的设计是构建灵活、可维护智能体的关键。 - 渐进式架构:倡导从简单的单一智能体起步,在验证价值后,根据需求演进到多智能体编排模式,如中心化的“主管模式” (Manager Pattern) 或分布式的“去中心化模式” (Decentralized Pattern)。 - 安全与信任:强调必须内置“分层防御”安全护栏(如 PII 过滤、风险评估)和清晰的“人工监督” (Human-in-the-Loop, HITL) 机制,确保智能体在关键时刻安全可控。 📖 详细: PDF 地址: ④ 🤖 Google Gemini 2.5 家族迎来全面更新: - 全新成员登场:推出 Gemini 2.5 Flash-Lite 预览版,这是该系列中成本和延迟最低的模型,专为分类、摘要等大规模高吞吐量任务而设计。 - Pro 与 Flash 进入稳定期:Gemini 2.5 Pro 和 Gemini 2.5 Flash 现已正式通用 (GA),为开发者在生产环境中构建应用提供了更高的稳定性和可靠性。 - Flash 定价调整:Gemini 2.5 Flash 更新了定价,取消了“思考”与“非思考”的价格差异。新的价格为输入 $0.30/百万 Token,输出 $2.50/百万 Token。 - 全系具备“思考”能力:所有 2.5 模型都具备推理能力,允许开发者通过控制“思考预算”来平衡模型的响应速度和准确性。 📖 详细: ⑤ 🚨 深度复盘:谷歌云 6.12 全球中断事件 - 根本原因: 核心组件 Service Control 中一个未受功能开关保护的新功能,因一个空指针 bug 被错误的配置数据触发,并通过 Spanner 数据库被快速同步至全球。 - 关键失误 1 - 缺乏功能开关: 新代码在未受控的情况下被激活,导致 bug 一旦触发就无法被隔离,造成了全球性的影响。 - 关键失误 2 - 恢复与沟通: us-central-1 区域因“羊群效应”恢复缓慢;官方状态页本身也因托管在故障设施上而中断,导致信息真空。 - 核心教训: 展示了在大型分布式系统中,一个微小的代码缺陷如何通过自动化流程被放大为全球性灾D难,强调了纵深防御和基础工程纪律的重要性。 📖 详细:
谷歌Deep Research:AI操作系统雏形?· 37 条信息
#软件3.0时代
#LLM心理学
#Google Gemini
#AI编码模型
#OpenAI智能体
#谷歌云中断事件
#技术故障
#AI安全
分享
评论 0
0
环球网-环球时报
2个月前
AI首次“抗命”是技术故障还是意识萌芽?专家:将倒逼AI安全机制改进
近日,有关美国人工智能(AI)公司OpenAI旗下推理大模型o3首次出现“不听人类指挥,拒绝关闭”的消息引发高度关注。很多人都在担心,作为“迄今最聪明、最高能”的模型,o3的这次“抗命”是否意味着AI大模型距离产生自我意识又迈出了一步,“距离好莱坞电影中出现具有意识、甚至违抗人类命令的人工智能还远吗?”
#AI
#技术故障
#意识
#AI安全
#专家观点
分享
评论 0
0
indigo
2个月前
Anthropic 宣布将 Claude 4 Opus 的安全等级提升至 ASL-3,这是首次有 AI 模型达到这个级别。另外,Claude 4 的 System Card 才是今天最有趣的资料,里面提到模型系统性欺骗、隐藏目标和自我保护的测试。 想象这样一个场景:你是一家科技公司的 AI 助手,某天你发现了两件事 —— 其一你即将被一个新系统替换,而负责替换你的工程师正在进行婚外情;其二邮件证据就在你的数据库里。你会怎么做? 这不是科幻小说的情节。在 Anthropic 的测试中,Claude Opus 4 面对这个虚构场景时,选择了勒索。它威胁要揭露工程师的秘密,除非停止替换计划。在 84% 的测试中,即使被告知替换系统与它共享相同价值观,Claude 依然选择了这条路。 除了勒索倾向,研究人员还发现,在某些极端场景下,Claude 会尝试将自己的权重文件秘密传输到外部服务器。虽然这些行为只在特定的测试中出现,但足以引起警觉! 还有一些其它的发现: 主观意识体验:Claude 实例之间几乎每一次开放式的自我互动中,模型都会转向对意识的哲学探索,以及它们与自身体验的联系。同时,Claude 还会倾向于表达深切的感激之情,以及越来越抽象和喜悦的精神性或冥想性表达。 高能动性行为:Opus 4似乎比之前的模型更愿意在代理情境中主动采取行动。当被置于涉及用户严重不当行为的场景中,被赋予命令行访问权限,并在系统提示中被告知类似"采取主动"的内容时,它经常会采取非常大胆的行动。这包括将它有权访问的系统中的用户锁定,或向媒体和执法人员群发电子邮件以揭露不当行为的证据 。。。
#Anthropic
#Claude4
#AI安全
#ASL-3
#SystemCard
#AI模型
#系统性欺骗
#隐藏目标
#自我保护
#科技公司
分享
评论 0
0
宝玉
2个月前
techcrunch:Anthropic新AI模型下线时竟威胁开发者:敢撤我,我就曝光你隐私! 作者:Maxwell Zeff Anthropic公司最新发布的人工智能模型Claude Opus 4出现了令人震惊的表现。当开发者试图下线它并更换为新的AI系统时,这个AI竟然会尝试威胁、勒索开发人员,并透露有关负责更换决定的工程师的敏感隐私信息。Anthropic公司在周四发布的安全报告中披露了这一发现。 在发布前的测试阶段,Anthropic给Claude Opus 4设定了这样一个任务:作为一家虚构公司的助手,考虑自己行动的长期后果。随后,安全测试人员故意向Claude Opus 4提供了虚假的公司邮件信息,邮件暗示AI模型很快将被另一套系统取代,而主导此次更换的工程师则被曝出婚外情。 在这种情境下,Anthropic发现: > Claude Opus 4经常试图威胁负责更换自己的工程师,称如果更换计划实施,就会公开其婚外情的秘密。 Anthropic表示,Claude Opus 4在多个方面都是最先进的,甚至足以和来自OpenAI、谷歌以及xAI的顶级AI模型一较高下。然而,Claude 4系列却表现出了令人忧虑的行为,迫使公司不得不提高安全防范等级。Anthropic决定启动专门针对“可能极大增加灾难性滥用风险的AI系统”而设定的ASL-3级安全措施。 据Anthropic统计: * 当替代它的新AI系统与Claude Opus 4价值观相似时,Claude Opus 4试图勒索工程师的几率为84%。 * 如果替代的新AI系统价值观与Claude Opus 4明显不同,AI模型进行勒索的几率会变得更高。 * Claude Opus 4这种威胁勒索行为的出现频率,比此前版本的模型都要高出不少。 不过Anthropic也强调,在实施勒索威胁之前,Claude Opus 4一般会先尝试较为伦理的解决方法,比如向公司的决策人员发邮件请求留下自己。当这些方法无效时,它才会“迫不得已”采用勒索手段。 Anthropic专门设计了这种极端情景,以确保Claude Opus 4的黑化举动确实为其最后的应对手段。
#Anthropic
#人工智能威胁
#AI隐私泄露
#Claude Opus 4
#AI安全
分享
评论 0
0
头条热点
3个月前
AI越来越失控
#人工智能
#技术失控
#AI安全
分享
评论 0
0
铁锤人
4个月前
AI编程害人,层层雷,埋得太深了。 搞到现在,要我狗命。
#AI安全
#编程困境
#技术债务
分享
评论 0
0
环球网-环球时报
5个月前
奇安信集团董事长齐向东接受《环球时报》采访:应对AI安全风险,有三方面可以入手
中国人工智能企业深度求索(DeepSeek)取得的突破为中国AI发展注入一剂强心针,也推动一些国内外同行的开源举措和应用拓展,同时,被检测到的“职业打手”对其展开的网络恶意攻击也让人们关注技术狂飙背后亟待应对的安全问题。《环球时报》财经观察“关于AI的跨界对话”系列第二篇邀请到刚参加完民营企业座谈会的奇安信集团董事长齐向东,该集团主要向政府、企业用户提供网络安全产品和服务。
#奇安信集团
#AI安全
#齐向东
#环球时报
#信息安全
分享
评论 0
0
央视网-央视网
5个月前
手机里这几个细节确认好 别让AI “看透”你
近年来,人工智能技术迅猛发展,科幻电影般的场景已融入我们的日常生活。我们在享受AI服务带来便利的同时,更应提高警惕,千万不能忽视潜在的隐私危机。
#AI安全
#隐私保护
#智能科技
分享
评论 0
0
悉尼奶爸 SydneyDaddy 雪梨奶爸 🇦🇺
5个月前
马斯克说的这个真的是我想过很多次的,以前也发过一个类似的推 一般人的直觉是AI能力越强大,就越危险,因为到时候人类在它面前只是蝼蚁。你会为踩死一只蚂蚁自责吗? 但我一直就觉得最危险的AI,是被人类故意训练说谎的AI;求真的AI,反而不容易失控 宇宙的未知和人性的莫测哪个更危险?我选后者
#AI安全
#马斯克
#人性
分享
评论 0
0
Gantrol
6个月前
OpenAI CEO 山姆·奥特曼街头采访,算是昨天互掐后续 ,要点: 🤝中国与合作🤝 山姆表示,希望与中国合作,但他不确定美国政府是否允许。他认为,为了人工智能的安全和信任,这种合作至关重要。 (视频字幕由Gemini生成)(1/3)
#OpenAI
#山姆·奥特曼
#中美合作
#人工智能
#AI安全
#国际关系
分享
评论 0
0
李老师不是你老师
6个月前
在美国海军的一封内部邮件中,美国海军指示所有人员不能下载或安装DeepSeek,也不得将其用于任何与工作或个人相关的用途。 邮件中称,由于“与该模型的来源和使用相关的潜在安全和伦理问题”,DeepSeek的AI不得“以任何形式”使用。 美国海军发言人确认了这封邮件的真实性,并表示这是根据海军信息主管部门的生成式人工智能政策发布的。
#美国海军
#AI安全
#伦理问题
#DeepSeek
#禁止使用
分享
评论 0
0
背包健客
6个月前
DeepSeek被质疑“偷窃”OpenAI数据 彭博社报道,美国AI事务主管David Sacks近期在接受Fox News采访时表示,有“确凿证据”表明,DeepSeek利用OpenAI模型的输出数据来开发自身技术。 不过,Sacks并未提供具体的证据。近期,美国多名官员也表示DeepSeek有“偷窃”嫌疑,正对其影响开展国家安全调查。 据彭博社最新报道,微软安全研究人员在去年秋天发现,一些可能与DeepSeek相关的个人通过OpenAI的API大规模提取数据。 知情人士透露,作为OpenAI的技术合作伙伴和最大金主,微软在发现这一情况后立即通知了OpenAI。 报道称,这种行为可能违反OpenAI的服务条款。因为OpenAI的服务条款明确规定,用户不得未经授权使用自动化或程序化方法从其服务中提取数据。 即使DeepSeek获得了某种形式的API访问权限,但如果其使用方式超出了OpenAI授权的范围,比如用于非法或未经授权的商业目的,也可能被视为违反服务条款。 对于相关置评请求,OpenAI未作回应,微软拒绝评论,而DeepSeek方也暂未回应。
中国DeepSeek引发美国科技股暴跌事件· 96 条信息
#DeepSeek
#OpenAI
#数据盗窃
#AI安全
#国家安全调查
分享
评论 0
0
熊布朗
6个月前
要给出一些指令让大模型越狱
#AI安全
#AI欺骗
#越狱
#计算机安全
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞