#爬虫

3天前

简单介绍下自己，方便大家交流 1. Python程序员，在成都，创业4年 2. 主要做知识付费，爬虫，RPA自动化机器人，AI工具等等。如果你喜欢我的分享，欢迎添加vx：257735或扫码，备注来自「twitter」回复【222】送再你一份副业资料

#Python程序员 #成都 #知识付费 #爬虫 #RPA自动化机器人

4天前

#每日推荐 QQ空间爬虫，多协程并发下载相册的相片/视频使用GO语言多协程并发式开发的QQ空间爬虫，通过手机QQ扫码登陆后即可全自动下载相册的相片和视频 PS：有没有唤醒你那该死的回忆

#QQ空间 #爬虫 #Go语言 #相册下载 #回忆 #多协程并发

Li Xiangyu 香鱼🐬

1周前

操！我今天发现了一个牛逼的东西我一个不怎么会代码的家伙。用上面这玩意今天写了一个爬虫把哈佛所有的研究生program的申请要求全爬出来了！！！包括截止时间，是否要求GRE成绩，托福雅思的要求等等这不仅能卖机构😂还能小红书直接卖给出国申请的本科生们。

#爬虫 #哈佛大学 #研究生申请 #留学 #信息

1周前

现在不懂编程写个爬虫抓数据来赚钱变得很简单了用了一下browseract，发现用自然语言就能提取数据，不用花时间，花钱雇人写了而且快速集成到n8n, Make, Zapier 工作流，免掉二次开发成本有多种爬虫模版，比如Tiktok红人抓取、Google News，快速上手，不浪费时间关键现在送 2k 积分，可以免费试用，手慢无拿来搞搞副业挺不错的，链接放下面了

#编程 #爬虫 #数据抓取 #自动化 #副业

1个月前

claude code 和 gemini cli 获取不到浏览器数据怎么能让它们弄个爬虫，爬抖音小红书里面的链接呢？如果能搞到链接，就可以接入一些 api，批量下载这些高赞视频（✅ api 已经解决）就可以批量提取文稿，分析出文案框架（✅ 分析文案的 prompt 已经有）

#Claude #Gemini #爬虫 #抖音小红书 #批量下载视频

2个月前

推文抓取，什么方式最便宜？

#推文抓取 #爬虫 #数据获取 #低成本 #技术

2个月前

怪不得大家都在夸Claude Code，确实强悍。提示词： “写一个爬虫抓取Paulgraham的所有文章为markdown格式，再打包制作成epub电子书” 等了4分钟左右，电子书做好了！

AI编程工具激战：Claude Code、Gemini Cli崛起· 901 条信息

#Claude Code #爬虫 #Paul Graham #电子书 #自动化

3个月前

有朋友问到有哪些好用的n8n template，我找到一个排行版，里面有热门workflow和作者的排名供参考，主要有这几类：各种适配接口（trigger、input、notification）、社媒内容创作和管理、爬虫和信息收集

#n8n #template #Workflow #接口适配 #社媒管理 #爬虫 #信息收集

3个月前

目前问了一圈，比较可信的结果是，这波封号潮，是封杀不走推特官方接口的爬虫数据行为。根据之前官方的报价，企业账号想检索 2 亿条推文，则需要月付 20 多万u，像 gmgn、ai16z、eliza 这种做推特检索和自动回复的，请求量应该在月 10 亿条上下。一些公司为了省钱，走了第三方爬虫，被集体干了。同时也连累了，之前多次提及 gmgn、ai16z 的博主们，估计被认为是相关矩阵号了。这也就是为何，之前有很多 web3 任务平台运营不下去的原因，接口费用逐步大于平台收入，每次有用户完成推特任务，去验证时，平台都要付费请求一波数据。

推特封号潮席卷加密圈，KOL频遭封禁引发恐慌· 139 条信息

币圈：山寨币盼涨，机构牛再现？· 4419 条信息

#封号潮 #推特 #爬虫 #数据 #企业账号 #GMGN #AI16z #eliza #检索 #自动回复 #第三方

WeNext🔥nexty.dev

4个月前

神奇，居然被 Toolify 爬到了，立省99刀

#Toolify #省钱 #爬虫

7个月前

今天下午 MCP So 在 ProductHunt 发布，趁机分享下我是如何通过程序化 SEO 在 MCP Servers 关键词拿到搜索第一名的：先了解下什么是程序化 SEO：简单的描述就是通过自动化程序，生成对搜索引擎友好的页面，让搜索引擎尽可能多收录网站页面，让网站内容更容易命中用户搜索需求。拿 MCP So 举例，如何实现程序化 SEO👇 1. 先写个爬虫，尽可能多的收集网络上的 MCP Servers，入库的初始数据是 MCP Server 的名称，简介，GitHub 链接等信息 2. 做一遍数据清洗，根据 GitHub 链接拼凑出来 readme 文档地址，用 jina reader 读到内容 3. 根据 readme 的 Markdown 内容，设置提示词，要求 AI 按照固定格式返回一个 JSON，结构化内容可以是这种形式： - category 自动归类 - tags 自动打标签 - summary 固定格式摘要 - what is xxx - how to use xxx - features of xxx - use cases of xxx - faq from xxx 4. 合理规划网站页面路径，设置面包屑导航。比如： - 首页导航点击进入分类页 - 分类页点击进入详情页 - 详情页通过面包屑点击回到分类页 - 详情页通过随机推荐进入其他详情页通过网站上清晰的路径规划，让搜索引擎蜘蛛能爬到更多的内容，收录更多的页面 5. 服务端渲染结构化内容，提升详情页的关键词覆盖密度。比如： - 详情页的 URL 路径可以是 /server/mcp-server-chatsum - meta 里面的 title 是 mcp-server-chatsum，description 放 mcp-server-chatsum 的介绍 - H1-H3 标签都包含 chatsum 关键词 6. 为长尾关键词自动构造页面，比如 mcp-server 搜索量不大，但是 xxx-mcp-server 搜索量加起来很大，xxx 可以是一批长尾关键词，就可以定时选一批 xxx-mcp-server 关键词造页面，提高搜索命中率 7. 合理设置 sitemap.xml，可以在 gsc 提交一个主要的 sitemap.xml，在主 sitemap.xml 链接到一个 sitemap_categories.xml 和 sitemap_servers.xml，然后周期性的更新后面两个 xml 的内容，一次性不要提交太多，几十个最好。以上就是我使用程序化 SEO 做 MCP So 这个导航站的一些经验。

#MCP So #ProductHunt #程序化 SEO #MCP Servers #搜索引擎 #自动化程序 #网站收录 #用户搜索需求 #爬虫

7个月前

如果一个页面，有很多自己想下载的东西，又不想一个个点，怎么办？一个方案是，让大模型写爬虫比方说，要下载上的所有PDF跟pptx，保存到references目录。其他要求: 1️⃣并发下载 2️⃣如果链接对应PDF格式文件，而HTML链接元素文本（link.text）是pdf，那么不要下载；否则用`${原pdf名称}${link.text}`作为文件标题；注意替换掉不适合作为标题的字符 3️⃣对pptx格式文件，不用改动标题网页可以作为附件上传，作为上下文。但有时不必要有的浏览器插件也可以做，优势是足够简单，劣势是没有爬虫脚本灵活

#爬虫 #并发下载 #PDF #文件命名 #自动化

1年前

简单介绍下自己，方便大家交流 1. Python程序员，在成都，创业4年 2. 主要做知识付费，爬虫，RPA自动化机器人，AI工具等等。 vx：257735或扫码，备注来自「twitter」

#Python程序员 #成都 #创业4年 #知识付费 #爬虫 #RPA自动化机器人 #AI工具 #联系方式