时政
财经
科技
虚拟货币
其他
登录
#爬虫
关注
sitin
3天前
简单介绍下自己,方便大家交流 1. Python程序员,在成都,创业4年 2. 主要做知识付费,爬虫,RPA自动化机器人,AI工具等等。 如果你喜欢我的分享,欢迎添加vx:257735或扫码 ,备注来自 「twitter」 回复【222】送再你一份副业资料
#Python程序员
#成都
#知识付费
#爬虫
#RPA自动化机器人
分享
评论 0
0
ilovelife
4天前
#每日推荐 QQ空间爬虫,多协程并发下载相册的相片/视频 使用GO语言多协程并发式开发的QQ空间爬虫,通过手机QQ扫码登陆后即可全自动下载相册的相片和视频 PS: 有没有唤醒你那该死的回忆
#QQ空间
#爬虫
#Go语言
#相册下载
#回忆
#多协程并发
分享
评论 0
0
Li Xiangyu 香鱼🐬
1周前
操!我今天发现了一个牛逼的东西 我一个不怎么会代码的家伙。 用上面这玩意今天写了一个爬虫 把哈佛所有的研究生program的申请要求全爬出来了!!! 包括截止时间,是否要求GRE成绩,托福雅思的要求等等 这不仅能卖机构😂还能小红书直接卖给出国申请的本科生们。
#爬虫
#哈佛大学
#研究生申请
#留学
#信息
分享
评论 0
0
铁锤人
1周前
现在不懂编程写个爬虫抓数据来赚钱变得很简单了 用了一下browseract,发现 用自然语言就能提取数据,不用花时间,花钱雇人写了 而且快速集成到n8n, Make, Zapier 工作流,免掉二次开发成本 有多种爬虫模版,比如Tiktok红人抓取、Google News,快速上手,不浪费时间 关键现在送 2k 积分,可以免费试用,手慢无 拿来搞搞副业挺不错的,链接放下面了
#编程
#爬虫
#数据抓取
#自动化
#副业
分享
评论 0
0
dontbesilent
1个月前
claude code 和 gemini cli 获取不到浏览器数据 怎么能让它们弄个爬虫,爬抖音小红书里面的链接呢? 如果能搞到链接,就可以接入一些 api,批量下载这些高赞视频(✅ api 已经解决) 就可以批量提取文稿,分析出文案框架 (✅ 分析文案的 prompt 已经有)
#Claude
#Gemini
#爬虫
#抖音小红书
#批量下载视频
分享
评论 0
0
铁锤人
2个月前
推文抓取,什么方式最便宜?
#推文抓取
#爬虫
#数据获取
#低成本
#技术
分享
评论 0
0
向阳乔木
2个月前
怪不得大家都在夸Claude Code,确实强悍。 提示词: “写一个爬虫抓取Paulgraham的所有文章为markdown格式,再打包制作成epub电子书” 等了4分钟左右,电子书做好了!
AI编程工具激战:Claude Code、Gemini Cli崛起· 901 条信息
#Claude Code
#爬虫
#Paul Graham
#电子书
#自动化
分享
评论 0
0
Frank
3个月前
有朋友问到有哪些好用的n8n template,我找到一个排行版,里面有热门workflow和作者的排名供参考,主要有这几类:各种适配接口(trigger、input、notification)、社媒内容创作和管理、爬虫和信息收集
#n8n
#template
#Workflow
#接口适配
#社媒管理
#爬虫
#信息收集
分享
评论 0
0
AB Kuai.Dong
3个月前
目前问了一圈,比较可信的结果是,这波封号潮,是封杀不走推特官方接口的爬虫数据行为。 根据之前官方的报价,企业账号想检索 2 亿条推文,则需要月付 20 多万u,像 gmgn、ai16z、eliza 这种做推特检索和自动回复的,请求量应该在月 10 亿条上下。 一些公司为了省钱,走了第三方爬虫,被集体干了。 同时也连累了,之前多次提及 gmgn、ai16z 的博主们,估计被认为是相关矩阵号了。 这也就是为何,之前有很多 web3 任务平台运营不下去的原因,接口费用逐步大于平台收入,每次有用户完成推特任务,去验证时,平台都要付费请求一波数据。
推特封号潮席卷加密圈,KOL频遭封禁引发恐慌· 139 条信息
币圈:山寨币盼涨,机构牛再现?· 4419 条信息
#封号潮
#推特
#爬虫
#数据
#企业账号
#GMGN
#AI16z
#eliza
#检索
#自动回复
#第三方
分享
评论 0
0
WeNext🔥nexty.dev
4个月前
神奇, 居然被 Toolify 爬到了,立省99刀
#Toolify
#省钱
#爬虫
分享
评论 0
0
idoubi
7个月前
今天下午 MCP So 在 ProductHunt 发布,趁机分享下我是如何通过程序化 SEO 在 MCP Servers 关键词拿到搜索第一名的: 先了解下什么是程序化 SEO: 简单的描述就是通过自动化程序,生成对搜索引擎友好的页面,让搜索引擎尽可能多收录网站页面,让网站内容更容易命中用户搜索需求。 拿 MCP So 举例,如何实现程序化 SEO👇 1. 先写个爬虫,尽可能多的收集网络上的 MCP Servers,入库的初始数据是 MCP Server 的名称,简介,GitHub 链接等信息 2. 做一遍数据清洗,根据 GitHub 链接拼凑出来 readme 文档地址,用 jina reader 读到内容 3. 根据 readme 的 Markdown 内容,设置提示词,要求 AI 按照固定格式返回一个 JSON,结构化内容可以是这种形式: - category 自动归类 - tags 自动打标签 - summary 固定格式摘要 - what is xxx - how to use xxx - features of xxx - use cases of xxx - faq from xxx 4. 合理规划网站页面路径,设置面包屑导航。 比如: - 首页导航点击进入分类页 - 分类页点击进入详情页 - 详情页通过面包屑点击回到分类页 - 详情页通过随机推荐进入其他详情页 通过网站上清晰的路径规划,让搜索引擎蜘蛛能爬到更多的内容,收录更多的页面 5. 服务端渲染结构化内容,提升详情页的关键词覆盖密度。比如: - 详情页的 URL 路径可以是 /server/mcp-server-chatsum - meta 里面的 title 是 mcp-server-chatsum,description 放 mcp-server-chatsum 的介绍 - H1-H3 标签都包含 chatsum 关键词 6. 为长尾关键词自动构造页面,比如 mcp-server 搜索量不大,但是 xxx-mcp-server 搜索量加起来很大,xxx 可以是一批长尾关键词,就可以定时选一批 xxx-mcp-server 关键词造页面,提高搜索命中率 7. 合理设置 sitemap.xml,可以在 gsc 提交一个主要的 sitemap.xml,在主 sitemap.xml 链接到一个 sitemap_categories.xml 和 sitemap_servers.xml,然后周期性的更新后面两个 xml 的内容,一次性不要提交太多,几十个最好。 以上就是我使用程序化 SEO 做 MCP So 这个导航站的一些经验。
#MCP So
#ProductHunt
#程序化 SEO
#MCP Servers
#搜索引擎
#自动化程序
#网站收录
#用户搜索需求
#爬虫
分享
评论 0
0
Gantrol
7个月前
如果一个页面,有很多自己想下载的东西,又不想一个个点,怎么办?一个方案是,让大模型写爬虫 比方说,要下载 上的所有PDF跟pptx,保存到references目录。其他要求: 1️⃣并发下载 2️⃣如果链接对应PDF格式文件,而HTML链接元素文本(link.text)是pdf,那么不要下载;否则用`${原pdf名称}${link.text}`作为文件标题;注意替换掉不适合作为标题的字符 3️⃣对pptx格式文件,不用改动标题 网页可以作为附件上传,作为上下文。但有时不必要 有的浏览器插件也可以做,优势是足够简单,劣势是没有爬虫脚本灵活
#爬虫
#并发下载
#PDF
#文件命名
#自动化
分享
评论 0
0
sitin
1年前
简单介绍下自己,方便大家交流 1. Python程序员,在成都,创业4年 2. 主要做知识付费,爬虫,RPA自动化机器人,AI工具等等。 vx:257735或扫码 ,备注来自 「twitter」
#Python程序员
#成都
#创业4年
#知识付费
#爬虫
#RPA自动化机器人
#AI工具
#联系方式
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞