趋动科技技术总监张增金:以算力池化提高GPU利用率,加速推进AI应用落地

原创
服务器 芯片
通过服务互联网、金融、教育、电信、交通运输等多个行业的头部客户,趋动科技也总结了客户在运营AI数据中心中遇到的挑战。

   【51CTO.com原创稿件】深度学习技术的发展,正在加速AI应用的落地。目前,越来越多的企业通过自建私有云或者使用公有云的模式,拥有了自己的AI数据中心,对内或对外提供深度学习的开发、测试和生产环境。

  10月26日,主题为“智算·新际”的2021人工智能计算大会(AICC 2021)在京举行。会后,记者有幸采访了趋动科技技术总监张增金,就算力池化、资源利用率等相关话题,进行了深入的交流。

[[432882]]

趋动科技技术总监张增金

  AI数据中心面临的挑战

  GPU作为AI时代重要的计算资源,给企业部署AI应用提供了强大的算力支撑。不过,由于GPU的使用成本仍然很高,使用GPU的计算资源和不使用GPU的计算资源的成本相差很大,因此如何优化AI数据中心的运营,提高GPU的利用率,降低算力成本,成为各个企业基础架构部门、平台部门和应用部门特别关心的话题。

  张增金告诉记者,通过服务互联网、金融、教育、电信、交通运输等多个行业的头部客户,趋动科技也总结了客户在运营AI数据中心中遇到的挑战。他表示,企业AI数据中心首先要解决GPU资源利用率低的问题,降低GPU的使用成本。

  据介绍,部门之间的需求不同,造成GPU的负载差异比较大。由于应用分管、组织架构等原因GPU资源无法在部门之间进行自由流动,这就造成了计算资源的浪费。除此之外,在开发过程当中,程序员写代码和bug调试时,造成GPU资源大部分时间处于空闲状态,传统架构无法让别人利用空闲的GPU资源,也会造成计算资源的极大浪费。

  除此之外,由于企业的服务器是按批次采购的,平台/运维要求机器的型号配置相对固定。随着不断变化的应用类型,不同应用需要的CPU、GPU配比是不一样的,固定的配比容易造成资源的浪费。另外,同一个任务负载存在波峰波谷、不同任务负载差异大两个复杂维度使得GPU的分配特别困难,难以高效使用。

  记者认为,传统独占GPU的架构看似具备高性能的算力,但同时也会使得用方总抱怨GPU资源不够,平台方却认为GPU资源利用率不高的问题产生。

  张增金表示,GPU资源作为高价值的硬件资源,但却不具备像SDN网络、分布式存储那样数据中心级别的统一运维、管理和使用的一等公民身份。因此用户迫切需要一种技术来消除这种差距,这也是趋动科技将GPU池化的根本原因所在。

  三大能力破解算力池化难题

  GPU算力池化并不是一种新技术,对于趋动科技而言,他们最大的优势在于服务过很多头部的互联网客户,深知用户的痛点和需求,并针对此进行产品研发。

  在张增金看来,算力池化解决方案是一个根据客户需求不断进行演进的过程,无论怎么样演进,最根据的还是要解决客户的实际问题。

  据介绍,成立于2019年的趋动科技,专注于构建高效的AI算力资源池,帮助客户提高AI算力资源利用率降低TCO,同时提高算法工程师的工作效率。公司自主研发的OrionX猎户座AI算力资源池化软件能够帮助企业用户构建数据中心级AI算力资源池,对用户的各类AI算力资源进行统一管理、维护和调配。

  与其它产品相比,趋势科技的OrionX猎户座AI算力资源池化软件具有三大独特的能力。一是能够把一块GPU卡进行算力和显存两个维度的切分,能够按照1%、2%或者任意百分比对资源进行切分,具有更高的弹性。二是具备远程调用能力,要在无GPU的服务器中也能够实现用户想要的GPU算力。三是能够对算力资源池进行集中管理、监控、运维的同时,提供诸如在线迁移等更高级别的功能。

  OrionX不仅能够将物理GPU资源抽象成可以通过网络在数据中心内任意服务器都可以直接使用的通用资源,对软件保持近似于物理GPU的兼容性,而且支持常用的深度学习框架(TensorFlow, PyTorch,PaddlePaddle等),支持深度学习的训练/推理/未来更多计算模式,支持追求极致性能的手写CUDA代码的应用,能够充分利用成熟的深度学习的生态和社区力量。

  此外,OrionX支持开发、测试、生产各个环节,支持本地共享/远程共享、本地独占/远程独占、跨物理节点多合一各种灵活的用法,支持动态配置资源,并且实现了资源池内的GPU算力即取即用,对其他上层软件保持资源管理的透明性,做到了资源的有效利用。

  张增金表示,OrionX方案在异构性、兼容性等各方面有着更大优势,即支持物理机,支持KVM等数字化平台,还支持包括容器、Kubernetes等平台的部署。同时,作为国产创新型企业,趋动科技还与国内的AI芯片企业进行合作,并计划最晚明年年初推出针对国产 AI芯片的产品,更好的服务于企业。

  携手合作共同推动AI应用落地

  除了不断打磨自身产品,提高技术实力之外,趋动科技与在积极与业界合作伙伴合作,共同推动AI应用的落地。

  据介绍,作为浪潮元脑计划中的左手伙伴,趋动科技与浪潮有着非常紧密的合作,并共同推进了行业案例的落地。除此之外,趋动科技与容联科技也有着密切合作。

  张增金告诉记者,今年趋动科技联手浪潮、容联科技,共同构建了西湖大学的智算中心,以自身产品能力,帮助西湖大学智算中心算力使用率提高了四到五倍。“利用我们的产品,能够帮助客户简化部署,提高效率。所以,最终用户对于三方合作提供的智算方案,给出了非常高的评价。”张增金如是说。

  据介绍,趋动科技的OrionX猎户座软件得到了包括互联网、金融、电信运营商和高校等大量行业头部客户的认可,已先后服务包括交叉信息核心技术研究院、携程、中国移动咪咕公司、网络通信与安全紫金山实验室在内的多家头部客户,并与Dell EMC、浪潮信息、AWS、青云QingCloud、Rancher、DaoCloud、科大讯飞等厂商展开战略合作。

 

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

 

责任编辑:张诚 来源: 51cto
相关推荐

2022-03-02 11:39:15

分布式计算联邦学习

2012-05-08 15:04:12

Platform

2011-03-17 13:54:42

查询参数SQL语句利用率

2011-04-02 11:16:16

MRTG监控带宽

2021-02-03 09:26:49

数据中心基础设施能源

2011-07-13 09:16:08

服务器虚拟化数据中心

2023-11-27 19:37:51

CPU云原生

2022-11-29 11:33:30

戴尔

2020-10-15 13:35:41

VMware

2013-09-29 16:09:26

OpenStack云计算

2013-04-02 09:15:40

服务器虚拟化

2019-01-30 14:55:57

华为云

2021-09-16 17:00:37

工业控制应用

2012-11-07 15:07:30

VMware虚拟化

2011-04-12 09:07:47

磁盘空间利用率虚拟化的隐藏成本
点赞
收藏

51CTO技术栈公众号