#云端推理服务

Y11
1周前
高端招聘:云端推理服务技术专家(P8) ----- 通义实验室-云端推理服务技术专家-北京/杭州 通义实验室 · 北京|杭州 职位描述 设计并构建面向多模态交互(语音、视觉、语言、上下文融合)的云端推理服务平台,支持Omni/Speech/VL等大模型的在线/近线推理; 主导端云协同架构中云端服务模块的技术方案,包括模型服务化(Model Serving)、动态批处理(Dynamic Batching)、请求调度、弹性扩缩容、负载均衡等关键能力; 优化云端推理链路的延迟、吞吐与资源利用率,针对ToB客户对SLA(如; 99.9%)构建统一的服务治理框架,集成监控告警、日志追踪(如OpenTelemetry)、AB测试、灰度发布、故障自愈等运维能力; 与算法团队紧密协作,推动模型结构适配、量化部署、缓存策略等端云联合优化方案落地; 职位要求 计算机科学、软件工程或相关专业硕士及以上学历,3年以上后端/云服务/推理平台开发经验; 精通Go/Python/C++至少一种语言,具备扎实的系统编程和高并发服务开发能力; 熟悉主流推理框架(如Triton Inference Server、vLLM、TensorRT-LLM、ONNX Runtime)及模型服务化最佳实践; 有大规模AI服务部署经验,熟悉GPU资源调度、模型版本管理、冷启动优化、长尾请求处理等典型问题; 有ToB项目交付经验,能理解客户需求并转化为可靠、可运维的技术方案; ------ 报名地址详见: 搜索。