#信息安全

我们可以更系统地回顾1995年到2015年这二十年间,我们与由美国政府背景资方驱动的“规避技术”之间的完整对抗历程。 一部由资金驱动的技术对抗简史(1995-2015) 从我们技术人员的视角复盘,网络边界的攻防博弈并非始于大众所熟知的“墙”与“梯子”的二元对立,而是源于一场由国家力量在幕后推动、以资金为杠杆的技术预研。要理解这段历史,追踪资金的流向远比分析单一工具的代码更为重要。 第一阶段(约1999-2003年):战略播种与In-Q-Tel的“第一滴灌” 对抗的真正起点,并非源自民间,而是来自美国情报部门的战略需求。1999年,为解决其海外情报人员安全接入互联网的问题,CIA成立了风险投资部门In-Q-Tel。它的首批投资之一,就给了开发“Triangle Boy”(三角男孩)的SafeWeb公司。 “Triangle Boy”在当时是一个技术上的异类。在我们的网络管控体系尚处于IP封锁和关键词过滤的初级阶段时,它已经超前地采用了分布式代理链和强加密技术。我们的分析结论是,它的首要目标并非为普通民众设计,而是为专业情报人员提供一个无法被追踪的“信息回传”安全通道。 In-Q-Tel的这笔投资,如同战略播种,其意义不在于“Triangle Boy”本身的用户规模,而在于它开创并验证了现代规避技术的基本架构。这个由情报资金催生的技术原型,成为了后续几乎所有同类工具的技术鼻祖。 第二阶段(约2002-2010年):资金公开化与“三剑客”的批量部署 进入21世纪,对抗的模式发生了转变。资金方从隐秘的情报机构转向了更为公开的“公共外交”机构。此时,“自由门”(Freegate)和“无界浏览”(Ultrasurf)等工具相继出现。 表面上看,这些是独立的技术项目,但其核心技术基因均传承自“Triangle Boy”,早期开发团队也存在紧密的联系。更关键的是,它们的启动和长期运营资金,主要来自美国广播理事会(BBG,后更名为USAGM)和美国国家民主基金会(NED)。 这标志着策略的转变:从为专业人士开发精锐工具,转向为普通大众提供免费、易用的规避软件。对我们而言,挑战从应对小规模、高匿名的渗透,转变为处理大规模、高并发的流量冲击。这一时期,我们的应对策略也随之升级,从简单的IP封锁演进到部署深度包检测(DPI)系统,以识别这些工具独特的流量指纹。BBG和NED的持续注资,确保了这些工具能与我们的防御技术进行长期的、迭代式的消耗战。 第三阶段(约2010-2015年):技术去中心化与生态的形成 随着对抗的深入,对手的形态也开始演变。Tor项目虽然更早出现,但在此阶段开始普及,它将“Triangle Boy”的分布式思想发展到了极致,给我们带来了识别上的巨大挑战。 与此同时,一个重要的转变是,对抗不再仅仅依赖于直接的资金注入。开发者社区开始出现更灵活、更轻量的个人项目,例如GoAgent利用Google的云服务(GAE)作为代理,以及Shadowsocks的出现。Shadowsocks在技术上是一个令人尊敬的对手,它将加密代理协议简化到了极致,极大地增加了流量识别的难度。 虽然这些后期工具并非都由美国政府直接资助开发,但它们得以生长的技术环境、所依赖的开源加密库、以及最初突破边界的思路,都得益于前两个阶段由In-Q-Tel和BBG等机构所奠定的基础。它们形成了一个庞大的技术生态,而最初的资金就是这个生态的“第一推动力”。 回顾这二十年,从In-Q-Tel的精准投资,到BBG/NED的公开扶持,再到后期技术社区的“自发”创新,资金的脉络清晰可见。它不仅催生了工具本身,更塑造了整个对抗的形态和技术演进路径。因此,在我们看来,技术本身很少是完全中立的,其背后的资金来源,从一开始就决定了它的最终用途和战略意图。
We designed an adversarial attack method and used it to target more than 40 AI chatbots. The attack succeeded more than 90% of the time, including against ChatGPT, Claude, and Perplexity. 我们设计了一种adversarial attack(对抗攻击)的方法,攻击了目前市面上40多款AI Chatbot, 攻击的成功率达到了90%以上,包括ChatGPT、Claude、perplexity,全都被成功攻击导致功能瘫痪。 Github: The specific approach was to create PDFs that keep the original text but also randomly break that original text into small fragments, while randomly inserting many large blocks — from several times to dozens of times the amount — of other-topic text rendered in transparent white font. While preserving the PDF’s human readability, we tried to maximize the chance of misleading large language models. The image below shows results from our experiments with Claude and ChatGPT. The PDF we uploaded was an introduction to hot dogs, while the interfering text was an introduction to AI. Both Claude and ChatGPT were, without exception, rendered nonfunctional. Our test results show that the adversarial PDFs we generate can still be read normally by human users, yet successfully mislead many popular AI agents and chatbots (including ChatGPT, Claude, Perplexity, and others). After reading the uploaded PDFs, these systems were not only led to misidentify the document as being about a different subject, they were also unable to read or understand the original text. Our attack success rate exceeded 90%. After reviewing Roy Lee’s Cluely, our team felt deeply concerned. The purpose of this experiment is to prompt scientists, engineers, educators, and security researchers in the AI community to seriously consider issues of AI safety and privacy. We hope to help define boundaries between humans and AI, and to protect the privacy and security of human documents, information, and intellectual property at minimal cost — drawing a boundary so humans can resist and refuse incursions by AI agents, crawlers, chatbots, and the like. Our proposed adversarial method is not an optimal or final solution. After we published this method, commercial chatbots and AI agents may begin using OCR or hand-authoring many rules to filter out small fonts, transparent text, white text, and other noise — but that would greatly increase their cost of reading and understanding PDFs. Meanwhile, we will continue to invest time and effort into researching adversarial techniques for images, video, charts, tables, and other formats, to help individuals, companies, and institutions establish human sovereign zones that refuse AI intrusion. We believe that, in an era when AI-enabled cheating tools are increasingly widespread — whether in exams and interviews or in protecting corporate files and intellectual-property privacy — our method can help humans defend information security. We also believe that defending information security is itself one of the most important topics in AI ethics. 具体方法是,我们在PDF中不仅加入原来文本内容,而且将原来文本内容随机打碎成小碎片,同时随机插入几倍到几十倍的大段的透明白色字体的其他主题的文章,在保证PDF可读性的前提下,尝试最大限度地误导大语言模型。 下图是我们在claude和chatgpt中实验的结果,我们输入的PDF文件是一篇关于热狗的简介,而信息干扰文章是关于AI的简介。而claude和chatgpt无一例外都功能瘫痪了。 我们的测试结果表明,我们使用adversarial attack生成的PDF文档,不仅人类用户可以正常阅读,而且也成功误导了包括ChatGPT、Claude、perplexity等等众多市面上流行的AI Agent和Chatbot产品,他们在阅读上传的PDF后,不仅完全被误导成了其他主体的内容,而且完全无法阅读和理解原来文本中的内容,我们攻击的成功率达到了90%以上。 在看完Roy Lee的cluely AI产品后,我们团队表示非常担忧。我们本次实验的目的,是希望启发AI社区的科学家、工程师、教育者和安全研究员们,认真思考AI安全和隐私主题,并且希望能给出人类和AI的边界,以最低成本保护人类文档、信息、知识产权的隐私与安全,划出人类对抗和拒绝AI的信息边界,在边界内免于被AI Agent、爬虫、chatbot等入侵和危害。 对于我们提出的对抗攻击方法,并非最优解。在我们提出这种方法后,目前市面上Chatbot和AI Agent工具可能未来将会采用OCR的方式来识别,或者人工手写大量规则来过滤小字体、透明文字、白色字体等干扰信息,但这极大提高了他们阅读和理解PDF文件的成本。同时,我们将会持续不断地投入时间和精力,研究图片、视频、图表、表格等信息的对抗攻击方法,帮助个人、企业、机构建立起拒绝AI入侵的人类主权范围。 我们相信,在越来越多的AI作弊工具泛滥的今天,无论在考试和面试中,还是企业文件和知识产权的隐私保护中,我们的方法都可以帮助人类守卫信息安全。我们相信,守卫信息安全本身也是AI伦理中最重要的话题之一。