时政
财经
科技
虚拟货币
其他
登录
#Aegaeon
关注
小互
10小时前
据报道:阿里云推出一个名为 Aegaeon 的 GPU 资源池化系统 该系统可以在其AI 模型推理服务场景中,将原本使用H20 GPU的 数量从 1,192 块缩减至仅需 213 块 节省约 82% 的用量🙃 该系统核心原理是在「同时服务多个LLM」的场景下,通过更高效的 GPU 资源复用、模型切换、中断/切换节点优化、利用“闲置” 或低利用模型的资源”来提升每块 GPU 的使用效率。 阿里云与北大团队在 SOSP 2025 的论文 Aegaeon: Effective GPU Pooling for Concurrent LLM Serving。论文写道:在阿里云模型市场里,为长尾、很少被调用的模型单独保留整卡,导致“17.7% 的 GPU 只服务了 1.35% 的请求”。 也就是:大量“冷门”模型也各占着整块 GPU,造成资源空转。Aegaeon 用 GPU 池化/多模型复用 来缓解这种低效分配。
#阿里云
#Aegaeon
#GPU资源池化
#LLM
#GPU利用率提升
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞