#云端推理服务

3个月前

高端招聘：云端推理服务技术专家（P8） ----- 通义实验室-云端推理服务技术专家-北京/杭州通义实验室 · 北京|杭州职位描述设计并构建面向多模态交互（语音、视觉、语言、上下文融合）的云端推理服务平台，支持Omni/Speech/VL等大模型的在线/近线推理；主导端云协同架构中云端服务模块的技术方案，包括模型服务化（Model Serving）、动态批处理（Dynamic Batching）、请求调度、弹性扩缩容、负载均衡等关键能力；优化云端推理链路的延迟、吞吐与资源利用率，针对ToB客户对SLA（如； 99.9%）构建统一的服务治理框架，集成监控告警、日志追踪（如OpenTelemetry）、AB测试、灰度发布、故障自愈等运维能力；与算法团队紧密协作，推动模型结构适配、量化部署、缓存策略等端云联合优化方案落地；职位要求计算机科学、软件工程或相关专业硕士及以上学历，3年以上后端/云服务/推理平台开发经验；精通Go/Python/C++至少一种语言，具备扎实的系统编程和高并发服务开发能力；熟悉主流推理框架（如Triton Inference Server、vLLM、TensorRT-LLM、ONNX Runtime）及模型服务化最佳实践；有大规模AI服务部署经验，熟悉GPU资源调度、模型版本管理、冷启动优化、长尾请求处理等典型问题；有ToB项目交付经验，能理解客户需求并转化为可靠、可运维的技术方案； ------ 报名地址详见：搜索。

#云端推理服务 #通义实验室 #P8 #北京/杭州 #多模态交互