猎户座OrionX AI加速器资源池化软件——产品介绍
随着AI技术的快速发展,越来越多企业开始将AI技术应用到自身业务之中。因此,对AI算力的需求在近几年迅猛增长。其中,云端AI算力自2012年到现在增长了超过三十万倍,在可预见的将来依然会保持这个增速。目前,云端AI算力主要由三类AI加速器来提供:GPU,FPGA和AI ASIC芯片。这些加速器的优点是性能非常高,缺点是价格也非常高。今天由于缺乏高效经济的AI加速器虚拟化解决方案,绝大部分企业因无法构建高效的加速器资源池,而不得不独占式地使用这些昂贵的加速器资源,导致资源利用率低,成本高。例如,根据AWS在re:Invent 2018上提到的数据,AWS上GPU利用率只有10%~30%。
趋动科技发布的猎户座AI计算平台,通过创新的虚拟化技术,帮助客户构建数据中心级AI加速器资源池,使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之上的AI加速器,不但能够帮助用户提高资源利用率,而且可以极大便利用户应用的部署。以GPU为例,猎户座AI计算平台支持如下四大场景:
- “化整为零”
猎户座AI计算平台支持将一块物理GPU细粒度切分成多块虚拟GPU,然后分配给多个虚拟机或者容器。每一块虚拟GPU的显存和算力都能被独立设置和限制。通过这个功能,用户可以高效地共享GPU资源,从而提高资源利用率,降低成本。
- “化零为整”
猎户座AI计算平台支持将多台服务器上的GPU提供给一个虚拟机或者容器使用,而该虚拟机或者容器内的AI应用无需修改代码。通过这个功能,用户可以将多台服务器的GPU资源聚合后提供给单一虚拟机或者容器使用,为用户的AI应用提供数据中心级的海量算力。
- “隔空取物”
猎户座AI计算平台支持将虚拟机或者容器运行在一台没有物理GPU的服务器上,透明地使用另一台服务器上的GPU资源,该虚拟机或者容器内的AI应用无需修改代码。通过这个功能,猎户座AI计算平台帮助用户实现了数据中心级的GPU资源池,用户的应用可以无障碍地部署到数据中心内的任意服务器之上,并且能够透明地使用任何服务器之上的GPU资源。
- “随需应变”
猎户座AI计算平台支持用户在虚拟机或者容器的生命周期内,动态分配和释放所需要的GPU资源。通过这个功能,猎户座AI计算平台帮助用户实现了真正的GPU资源动态伸缩,极大提升了GPU资源调度的灵活度。
通过猎户座 AI 计算平台构建数据中心级 GPU 资源池的典型系统结构如下图所示
数据中心中有部分服务器没有 GPU,有部分服务器有 GPU。通过部署猎户座AI 计算平台,所有 GPU 服务器上的 GPU 资源均能被池化,变成可以灵活切分的具有不同显存、计算能力的虚拟 GPU。这些虚拟 GPU 可以被动态挂载到不同的环境中,例如挂载到 KVM 虚拟机中,挂载到容器中,或者直接挂载到裸金属服务器中。
经过 GPU 资源池化后,整个数据中心所有服务器上的 GPU 应用都可以如同使用本地 GPU 那样使用虚拟 GPU。打破了单台服务器 CPU、GPU 的硬件配比关系,使得数据中心的运维可以根据不同的应用负载需求,根据不同用户配额需求,动态灵活配置 GPU 资源,从而为更多的应用提供 GPU 资源,提高数据中心 GPU的利用率。
目前猎户座 AI 计算平台支持的 GPU 型号及功能如下表:
我们对猎户座 AI 计算平台进行了性能评测,测试环境如下:
性能评测结果如下:
- “Native GPU”为将测试用例运行在物理 GPU 之上,不使用虚拟机或者容器的性能;
- “Orion Local Container”为将测试用例运行在安装了猎户座 AI 计算平台软件的容器之中,使用本 机 GPU 的性能;
- “Orion Local KVM”为将测试用例运行在安装了猎户座 AI 计算平台软件的 KVM 虚拟机之中,使用 本机 GPU 的性能;
- “Orion Remote – 25G RDMA”为将测试用例运行在一台没有 GPU 的物理机之上,通过 25G RDMA 网卡使用远程 GPU的性能。
联系我们:
加入我们:[email protected]
商务合作:[email protected]
问题反馈:[email protected]