2025-02-23 01:00:14
如果一个页面,有很多自己想下载的东西,又不想一个个点,怎么办?一个方案是,让大模型写爬虫 比方说,要下载 上的所有PDF跟pptx,保存到references目录。其他要求: 1️⃣并发下载 2️⃣如果链接对应PDF格式文件,而HTML链接元素文本(link.text)是pdf,那么不要下载;否则用`${原pdf名称}${link.text}`作为文件标题;注意替换掉不适合作为标题的字符 3️⃣对pptx格式文件,不用改动标题 网页可以作为附件上传,作为上下文。但有时不必要 有的浏览器插件也可以做,优势是足够简单,劣势是没有爬虫脚本灵活
2025-02-23 01:00:14
2025-02-22 14:25:00
2025-02-22 10:03:23
2025-02-15 01:42:22
2025-02-12 12:20:54