时政
财经
科技
登录
#爬虫
关注
Frank
2周前
有朋友问到有哪些好用的n8n template,我找到一个排行版,里面有热门workflow和作者的排名供参考,主要有这几类:各种适配接口(trigger、input、notification)、社媒内容创作和管理、爬虫和信息收集
#n8n
#template
#Workflow
#接口适配
#社媒管理
#爬虫
#信息收集
分享
评论 0
0
AB Kuai.Dong
2周前
目前问了一圈,比较可信的结果是,这波封号潮,是封杀不走推特官方接口的爬虫数据行为。 根据之前官方的报价,企业账号想检索 2 亿条推文,则需要月付 20 多万u,像 gmgn、ai16z、eliza 这种做推特检索和自动回复的,请求量应该在月 10 亿条上下。 一些公司为了省钱,走了第三方爬虫,被集体干了。 同时也连累了,之前多次提及 gmgn、ai16z 的博主们,估计被认为是相关矩阵号了。 这也就是为何,之前有很多 web3 任务平台运营不下去的原因,接口费用逐步大于平台收入,每次有用户完成推特任务,去验证时,平台都要付费请求一波数据。
推特封号潮席卷加密圈,KOL频遭封禁引发恐慌· 51 条信息
币圈:交易所颓势,散户深陷“单机”亏损· 1404 条信息
#封号潮
#推特
#爬虫
#数据
#企业账号
#GMGN
#AI16z
#eliza
#检索
#自动回复
#第三方
分享
评论 0
0
WeNext🔥nexty.dev
1个月前
神奇, 居然被 Toolify 爬到了,立省99刀
#Toolify
#省钱
#爬虫
分享
评论 0
0
idoubi
4个月前
今天下午 MCP So 在 ProductHunt 发布,趁机分享下我是如何通过程序化 SEO 在 MCP Servers 关键词拿到搜索第一名的: 先了解下什么是程序化 SEO: 简单的描述就是通过自动化程序,生成对搜索引擎友好的页面,让搜索引擎尽可能多收录网站页面,让网站内容更容易命中用户搜索需求。 拿 MCP So 举例,如何实现程序化 SEO👇 1. 先写个爬虫,尽可能多的收集网络上的 MCP Servers,入库的初始数据是 MCP Server 的名称,简介,GitHub 链接等信息 2. 做一遍数据清洗,根据 GitHub 链接拼凑出来 readme 文档地址,用 jina reader 读到内容 3. 根据 readme 的 Markdown 内容,设置提示词,要求 AI 按照固定格式返回一个 JSON,结构化内容可以是这种形式: - category 自动归类 - tags 自动打标签 - summary 固定格式摘要 - what is xxx - how to use xxx - features of xxx - use cases of xxx - faq from xxx 4. 合理规划网站页面路径,设置面包屑导航。 比如: - 首页导航点击进入分类页 - 分类页点击进入详情页 - 详情页通过面包屑点击回到分类页 - 详情页通过随机推荐进入其他详情页 通过网站上清晰的路径规划,让搜索引擎蜘蛛能爬到更多的内容,收录更多的页面 5. 服务端渲染结构化内容,提升详情页的关键词覆盖密度。比如: - 详情页的 URL 路径可以是 /server/mcp-server-chatsum - meta 里面的 title 是 mcp-server-chatsum,description 放 mcp-server-chatsum 的介绍 - H1-H3 标签都包含 chatsum 关键词 6. 为长尾关键词自动构造页面,比如 mcp-server 搜索量不大,但是 xxx-mcp-server 搜索量加起来很大,xxx 可以是一批长尾关键词,就可以定时选一批 xxx-mcp-server 关键词造页面,提高搜索命中率 7. 合理设置 sitemap.xml,可以在 gsc 提交一个主要的 sitemap.xml,在主 sitemap.xml 链接到一个 sitemap_categories.xml 和 sitemap_servers.xml,然后周期性的更新后面两个 xml 的内容,一次性不要提交太多,几十个最好。 以上就是我使用程序化 SEO 做 MCP So 这个导航站的一些经验。
#MCP So
#ProductHunt
#程序化 SEO
#MCP Servers
#搜索引擎
#自动化程序
#网站收录
#用户搜索需求
#爬虫
分享
评论 0
0
Gantrol
4个月前
如果一个页面,有很多自己想下载的东西,又不想一个个点,怎么办?一个方案是,让大模型写爬虫 比方说,要下载 上的所有PDF跟pptx,保存到references目录。其他要求: 1️⃣并发下载 2️⃣如果链接对应PDF格式文件,而HTML链接元素文本(link.text)是pdf,那么不要下载;否则用`${原pdf名称}${link.text}`作为文件标题;注意替换掉不适合作为标题的字符 3️⃣对pptx格式文件,不用改动标题 网页可以作为附件上传,作为上下文。但有时不必要 有的浏览器插件也可以做,优势是足够简单,劣势是没有爬虫脚本灵活
#爬虫
#并发下载
#PDF
#文件命名
#自动化
分享
评论 0
0
sitin
1年前
简单介绍下自己,方便大家交流 1. Python程序员,在成都,创业4年 2. 主要做知识付费,爬虫,RPA自动化机器人,AI工具等等。 vx:257735或扫码 ,备注来自 「twitter」
#Python程序员
#成都
#创业4年
#知识付费
#爬虫
#RPA自动化机器人
#AI工具
#联系方式
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞