Y11
2个月前
高端工作机会:米哈游 招 通用网页爬虫负责人【P7-P8】 ----- 通用网页爬虫负责人 米哈游 · 上海 > 职位描述 主导设计统一的通用网页爬取框架,构建高并发分布式爬取系统,覆盖网页、论坛、社交媒体、文档、视频/音频转写等多模态数据源; 负责抓取后的数据落地、分片存储、内容解析(HTML/JSON/多语言文本/字幕/评论流等)与去重,与数据清洗、内容质量、采样与训练团队协作,实现端到端可追溯的数据管线; 规划爬虫集群、代理池、分布式调度、动态反爬对抗与增量抓取策略; 建立多源数据 schema 规范与元数据采集标准,支撑 Trino/Spark/大数据湖分析; 职位要求 计算机科学、软件工程或相关专业,本科及以上学历; 至少5年以上后端/数据工程经验,3年以上分布式爬虫系统或大规模数据采集平台经验; 精通 Python/Go/Java 任一语言及其并发编程模型; 熟悉 Scrapy、Playwright、Selenium 等爬取框架及反爬机制; 具备分布式调度与大数据生态(Kafka、Spark、Airflow、Trino、S3/TOS/HDFS)经验; 理解网页结构化抽取(HTML DOM、XPath、正则、语言检测)与去重、分段、内容抽取算法; 对语料质量控制、数据去噪与语言模型训练数据格式有实际理解者加分; 有搜索引擎、内容聚合、信息抽取、数据抓取/流式采集经验者优先; 具备跨团队沟通与项目推进能力,对数据驱动的模型质量有强烈责任感; ------ 报名地址详见: 搜索