扫描打开手机站
随时逛,更方便!
当前位置:首页 > 智创未来

阿里云Aegaeon入选SOSP 2025,GPU资源利用率提升新突破

时间:2025-10-18 22:02:28 来源:财联社 作者:财联社

《科创板日报》10月18日讯(编辑 宋子乔) 近日,阿里云在AI技术领域取得重大突破,其提出的计算池化解决方案“Aegaeon”成功入选顶级学术会议SOSP 2025。该方案针对AI模型服务中普遍存在的GPU资源浪费问题,提出了创新性的解决策略,显著提升了GPU资源的利用率,目前其核心技术已在阿里云百炼平台得到应用。


SOSP(操作系统原理研讨会)作为计算机系统领域的顶级学术会议,由ACM SIGOPS主办,平均每年仅收录数十篇论文,被誉为计算机操作系统界的“奥斯卡”。入选该会议的论文代表了操作系统和软件领域最具代表性的研究成果。在本届SOSP大会上,系统软件与AI大模型技术的融合成为新的研究趋势。

数据显示,在阿里云模型市场为期超三个月的Beta测试中,Aegaeon系统展现出了惊人的效果。在服务数十个参数量高达720亿的大模型时,所需的英伟达H20 GPU数量从1192个大幅减少至213个,削减比例高达82%。这一数据意味着,对于动辄使用成千上万张GPU的大型模型服务商而言,硬件采购成本将得到显著降低。


在真实的模型服务场景中,少数热门模型(如阿里的Qwen)往往承载了绝大多数用户请求,而大量不常被调用的“长尾”模型却各自独占着GPU资源,导致资源闲置严重。数据显示,在阿里云模型市场中,曾有17.7%的GPU算力仅用于处理1.35%的请求。

Aegaeon系统通过GPU资源池化技术,打破了“一个模型绑定一个GPU”的低效模式。其核心创新点在于Token级调度,Aegaeon多模型混合服务系统在每次生成下一个token后,能够动态决定是否切换模型,实现精细化管理。同时,通过组件复用、显存精细化管理和KV缓存同步优化等全栈技术,Aegaeon将模型切换开销降低97%,确保了token级调度的实时性,可支持亚秒级的模型切换响应。

据介绍,Aegaeon系统支持单GPU同时服务多达7个不同模型,相比现有主流方案,有效吞吐量提升了1.5-9倍,请求处理能力实现了2-2.5倍的提升。

如何从底层系统软件层面进行优化,以更好地支撑和赋能上层AI应用,已成为全球学术界和工业界共同关注的焦点。未来AI的发展将不再单纯依赖于硬件算力的增长,更需要通过系统级的软件创新来深度挖掘现有硬件的潜力,而阿里云的Aegaeon系统正是这一趋势下的重要成果。

猜你喜欢