We designed an adversarial attack method and used it to target more than 40 AI chatbots. The attack succeeded more than 90% of the time, including against ChatGPT, Claude, and Perplexity. 我们设计了一种adversarial attack(对抗攻击)的方法,攻击了目前市面上40多款AI Chatbot, 攻击的成功率达到了90%以上,包括ChatGPT、Claude、perplexity,全都被成功攻击导致功能瘫痪。 Github: The specific approach was to create PDFs that keep the original text but also randomly break that original text into small fragments, while randomly inserting many large blocks — from several times to dozens of times the amount — of other-topic text rendered in transparent white font. While preserving the PDF’s human readability, we tried to maximize the chance of misleading large language models. The image below shows results from our experiments with Claude and ChatGPT. The PDF we uploaded was an introduction to hot dogs, while the interfering text was an introduction to AI. Both Claude and ChatGPT were, without exception, rendered nonfunctional. Our test results show that the adversarial PDFs we generate can still be read normally by human users, yet successfully mislead many popular AI agents and chatbots (including ChatGPT, Claude, Perplexity, and others). After reading the uploaded PDFs, these systems were not only led to misidentify the document as being about a different subject, they were also unable to read or understand the original text. Our attack success rate exceeded 90%. After reviewing Roy Lee’s Cluely, our team felt deeply concerned. The purpose of this experiment is to prompt scientists, engineers, educators, and security researchers in the AI community to seriously consider issues of AI safety and privacy. We hope to help define boundaries between humans and AI, and to protect the privacy and security of human documents, information, and intellectual property at minimal cost — drawing a boundary so humans can resist and refuse incursions by AI agents, crawlers, chatbots, and the like. Our proposed adversarial method is not an optimal or final solution. After we published this method, commercial chatbots and AI agents may begin using OCR or hand-authoring many rules to filter out small fonts, transparent text, white text, and other noise — but that would greatly increase their cost of reading and understanding PDFs. Meanwhile, we will continue to invest time and effort into researching adversarial techniques for images, video, charts, tables, and other formats, to help individuals, companies, and institutions establish human sovereign zones that refuse AI intrusion. We believe that, in an era when AI-enabled cheating tools are increasingly widespread — whether in exams and interviews or in protecting corporate files and intellectual-property privacy — our method can help humans defend information security. We also believe that defending information security is itself one of the most important topics in AI ethics. 具体方法是,我们在PDF中不仅加入原来文本内容,而且将原来文本内容随机打碎成小碎片,同时随机插入几倍到几十倍的大段的透明白色字体的其他主题的文章,在保证PDF可读性的前提下,尝试最大限度地误导大语言模型。 下图是我们在claude和chatgpt中实验的结果,我们输入的PDF文件是一篇关于热狗的简介,而信息干扰文章是关于AI的简介。而claude和chatgpt无一例外都功能瘫痪了。 我们的测试结果表明,我们使用adversarial attack生成的PDF文档,不仅人类用户可以正常阅读,而且也成功误导了包括ChatGPT、Claude、perplexity等等众多市面上流行的AI Agent和Chatbot产品,他们在阅读上传的PDF后,不仅完全被误导成了其他主体的内容,而且完全无法阅读和理解原来文本中的内容,我们攻击的成功率达到了90%以上。 在看完Roy Lee的cluely AI产品后,我们团队表示非常担忧。我们本次实验的目的,是希望启发AI社区的科学家、工程师、教育者和安全研究员们,认真思考AI安全和隐私主题,并且希望能给出人类和AI的边界,以最低成本保护人类文档、信息、知识产权的隐私与安全,划出人类对抗和拒绝AI的信息边界,在边界内免于被AI Agent、爬虫、chatbot等入侵和危害。 对于我们提出的对抗攻击方法,并非最优解。在我们提出这种方法后,目前市面上Chatbot和AI Agent工具可能未来将会采用OCR的方式来识别,或者人工手写大量规则来过滤小字体、透明文字、白色字体等干扰信息,但这极大提高了他们阅读和理解PDF文件的成本。同时,我们将会持续不断地投入时间和精力,研究图片、视频、图表、表格等信息的对抗攻击方法,帮助个人、企业、机构建立起拒绝AI入侵的人类主权范围。 我们相信,在越来越多的AI作弊工具泛滥的今天,无论在考试和面试中,还是企业文件和知识产权的隐私保护中,我们的方法都可以帮助人类守卫信息安全。我们相信,守卫信息安全本身也是AI伦理中最重要的话题之一。
我现在面临的是在一场已经进入“深水区”的AIGC著作权争论里,再次被追问一个最基本的问题:谁在创作?谁是作者?哪怕北互的“文生图第一案”已经给出了清晰的司法路径,现实中依然争论不休。作为创作者,我需要把自己的创作事实说清楚,也需要请法院延续并适用那套已被证明可操作的标准。 在文生图第一案里,法院明确确认了两件事:其一,文生图并非天然排除在著作权之外;其二,只要能体现创作者在提示词—参数—迭代选择中的实质性智力投入,就可以认定作品具备“独创性”。判词写得很具体:创作者“输入提示词、设置参数”,在拿到第一张图后“继续增加提示词、修改参数,不断调整修正”,最终获得定稿;这一过程“体现了审美选择和个性判断”。同时,法院强调生成式模型“并不具有自由意志”,创作“本质上仍是利用工具进行创作”,因此投入智力劳动的人而非模型才是作品作者。在类型上,涉案图像被归入“美术作品”,并再次确认“作者应为自然人”。 我的创作过程与文生图第一案同构,并且多出一个关键环节:我在模型训练层面即已投入巨大的独创性劳动。我使用自训练的AWPortrait模型,这本身就是将我多年摄影经验与美学理解转化为数字化规则的过程。从我输入第一个提示词的那一刻起,作品就在一条连续的路径上生长:观察输出、修正语言、微调采样与权重、对比版本、取舍细节……每一步都是我基于审美与经验作出的决定。与第一案相比,我们在文生图的操作路径上一致且多出了使用adetailer的inpainting技术,并为inpainting过程专门设计了针对性的描述词,实现对局部细节的反复修改和精准修补且在模型层投入了额外且更深的创作性劳动。也正因此,我的作品不仅满足第一案认定“独创性”的标准,增加了针对原图的inpainting过程,而且还叠加了“模型训练—风格塑形”的前置创作环节——这应当得到更明确的保护。 如果这样线性的创作路径都不能获得保护,将对行业造成极大的负面影响:一、侵权零成本化,他人可以无限制复制、篡改创作者的作品,完全不需承担法律责任;二、原创动力被摧毁,创作者将不再有动力去深耕模型训练和艺术探索,AIGC生态将沦为“速成抄袭”的温床;三、创新空间被压缩,中小创作者将在平台与大厂的资源挤压下彻底失去表达空间,行业审美和技术发展会被全面拉低。法律的本质应是平衡与保护。如果规则的实际效果是让投入最多劳动的一方付出更多维权成本,却让侵权的一方逃避责任,那么这不仅对个人创作者不公,也会让整个行业陷入逆向淘汰。著作权的本意是承认并保护创造性劳动,理应为每一次真实的创作行为划定边界与秩序。 基于上述,我的结论很朴素也很明确:本案应当依第一案之标准审理与认定——承认文生图在存在实质性智力投入时的作品地位,确认在创作链条中进行选择与判断的自然人为作者;在此基础上,结合我在模型自训练层面的前置投入,进一步确认我的作者身份与作品独创性。只有沿着这条已被验证的司法路径前进,创作者的劳动才会被看见,行业的创新动力才会被保护。