时政
财经
科技
虚拟货币
其他
登录
#AI算力调度
关注
Compute King
1周前
华为发布新一代AI算力调度技术,Flex:ai智算资源利用率提升可达30% 华为前几日正式推出新一代AI算力容器化调度技术Flex:ai。据介绍,该技术可将智算资源利用率提升最高30%,并支持异构算力环境,兼容英伟达GPU、华为昇腾NPU等多类加速卡,避免了生态锁定问题。。。 在技术架构上,Flex:ai基于Kubernetes构建,是面向XPU的池化与智能调度软件。通过对GPU,NPU等算力资源进行细粒度管理和智能化调度,实现AI训练与推理任务与底层硬件的精确匹配,从而显著提升整体算力利用效率。 软件补硬件以及开放兼容,是该技术的两大核心特点。 2024年4月,英伟达以7亿美元收购以色列AI基础设施公司Run:ai,以弥补其在算力管理软件领域的短板。相比之下,华为的Flex:ai在虚拟化能力和智能调度算法方面具备差异化优势,并将以更完整的方式开源。 华为表示,Flex:ai自立项起便与多所高校联合研发。公司认为,算力利用率的提升必须基于真实业务场景不断优化,因此希望更多企业借助开源生态参与共建,共同探索行业最佳实践。 华为Flex:ai的核心能力可概括为三个方面: 1,算力资源切分:一张卡变N张卡,同时服务多个AI工作负载 Flex:ai通过算力切分技术,将单张GPU/NPU拆分为多个虚拟算力单元,切分粒度精确至10%。这一技术使得单卡能够同时承载多个AI工作负载,在整卡算力无法被充分利用的场景下,算力资源平均利用率可提升30%。 2,多级智能调度:实现 AI 工作负载与算力资源的精准匹配 Flex:ai内置全局智能调度器Hi Scheduler,实时监控集群负载与资源状态,并结合AI任务的优先级,算力需求等多维参数,对本地及远端虚拟化的GPU/NPU资源进行全局最优调度。 3,跨节点算力聚合:通用算力与智能算力融合 Flex:ai可聚合集群内各节点的空闲XPU算力,形成共享算力池。通用服务器通过高速网络将AI工作负载分发至池内GPU/NPU执行,实现通用算力与智能算力的无缝融合,从而提升整体算力利用效率和任务调度灵活性。 魔擎社区地址:
#华为Flex:ai
#AI算力调度
#算力资源利用率提升
#异构算力兼容
#开源生态
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞