一份判决书揭秘了Anthropic训练模型细节 五位作家起诉 Anthropic,指控其在训练 Claude 模型过程中使用了数百万本未授权图书(电子书和纸质书)。 2021-2022 Anthropic了下载 Books3(含近 20 万本图书)、LibGen(超 500 万本)、PiLiMi(200 万本)等盗版资源 用于构建“内部研究图书馆” (未直接用于训练全量数据,但内容被用于评估、采样和过滤)。 2024年起: Anthropic转向合法方式:大规模购买实体书籍并扫描 聘请前 Google 图书项目高管 Tom Turvey,设法规避法律阻力。 从零售商、批发商处以数百万美元购买纸质图书(包括二手书)。 服务商负责拆书、扫描、OCR 建立数字副本,构建高质量文本语料库。 法院判决: ✅ 被裁定为“合理使用”的部分: 扫描纸质图书(合法购买)供内部使用,用于模型训练。 法院认为这种做法具有“转化性”(transformative use),构成合理使用(fair use)。 图书未被向外部公开,模型输出也不是原书复制。 ❌ 仍将进入审判的争议部分: 下载使用盗版电子书的行为(如Books3、LibGen、PiLiMi) 法官确认 Anthropic 明知使用盗版数据并长期保留。 虽然后期承诺不再使用,但已造成版权侵害。 有趣的是法院对“合理使用”的核心论点: 法官认为:就像人类“读书→理解→写作”,不能要求每次回忆书中思想都支付版权费用。 “人们阅读、记忆、再创作已有文学结构,从中发展新的思想与写作风格。不能因引用或受启发就处处收费。” 法官强调模型学习与人类阅读记忆之间的相似性,指出模型不是“复制”,而是“吸收与转化”。😂