中科曙光智能计算技术总监许涛: 借助全新XMachine服务器,推动AI应用落地

原创
服务器
全新一代XMachine系列AI服务器可以做到一个硬件平台,两块不同主板(CPU、GPU),三种不同拓扑,理论最多可实现18种不同机型的AI服务器,能够适应各种AI业务的需求。之所以采用这种灵活的设计,在许涛看来,一方面是希望在同一个平台上满足不同的应用和不同的需求。

  【51CTO.com原创稿件】在今年苏州举行的GTC China 2018大会上,英伟达继续发力,发布了两款全新的数据中心GPU:面向深度学习和高性能计算(HPC)的HGX-2 GPU和基于图灵架构的T4 GPU。作为超算行业的领导厂商,中科曙光持续跟进,推出了全新XMachine系列AI服务器,统一的硬件平台完全兼容适配NVIDIA公司Tesla系列产品,满足了当下主流应用的需求。

  曙光智能计算技术总监许涛在接受记者采访时表示,全新XMachine系列AI服务器采用CPU主板和GPU底板解耦合设计,此外,该系列AI服务器还可根据CPU和GPU的发展各自独立升级,降低用户更新换代成本。

  一个硬件平台可组合成18种机型的AI服务器机型

  许涛强调,全新一代XMachine系列AI服务器可以做到一个硬件平台,两块不同主板(CPU、GPU),三种不同拓扑,理论最多可实现18种不同机型的AI服务器,能够适应各种AI业务的需求。之所以采用这种灵活的设计,在许涛看来,一方面是希望在同一个平台上满足不同的应用和不同的需求。

[[250584]]

  NVIDIA在本次GTC上发布的HGX-2 GPU和T4 GPU,面向不同的AI应用场景。HGX-2 GPU拥有强大的计算性能,更适合部署在训练环境中;T4 GPU由于其功耗较低,因此更适合用在推理环节。

  另一方面则是通过模块化的设计,保持整体模块不变的情况下方便换代升级,尽量保护客户的投资。许涛告诉记者,英伟达当前正在大力推动NVLink GPU卡的普及,而之前的很多卡则采用了PCI-E,因此在设计AI服务器的时候,还要考虑到PCI-E接口和NVLink接口的配合。

  正是基于以上两个方面的原因,新一代XMachine系列AI服务器采用了主板和GPU板做分离式设计,两块板可以按照自己的演化速度朝前推进,如GPU板可以通过更换GPU底板的形式支持NVLink或者PCI-E,机箱不需要做任何修改。在主板到GPU板之间连接拓扑采用了三种不同的设计,更新过程只需要更换中间的拓扑线缆,且线缆同样采用定型模组设计,易于插拔更换。

  以AI应用场景为主的定制化的解决方案

  新一代XMachine系列AI服务器具备了一个硬件平台18种变形能力,可以满足不用AI应用场景的需求,并为客户节省升级的成本。不过,在记者看来,如此丰富的组合,是否会造成选择恐惧症呢?

  谈到此话题,许涛告诉记者,XMachine系列AI服务器在出货的时候,会根据客户的实际应用场景,给客户***化的产品组合方案。他表示,XMachine系列AI服务器在设计之初就与客户进行了深度的沟通,优化了拓扑方案,这18种组合方案可以说覆盖了全部AI应用场景的需求。

[[250585]]

  许涛还强调,曙光的团队不仅仅能给用户做硬件推荐,而且还能给用户提供一个完整的解决方案。

  “我们了解他们的应用,从他们应用的角度推荐一个比较适合客户的硬件配置、拓扑结构,最终把最适合他们的产品推荐给用户。”

  据了解,XMachine系列AI服务器不仅仅在硬件方面有着强大的优势,而且还提供了软件的方案,能够为客户提供开箱即用的产品方案。不过,许涛也告诉记者,不同的公司对软件的需求也完全不同,像互联网厂商研发能力非常强,不需要软件解决方案,中型用户需要将训练和推理相结合,因此曙光会与客户合作,双方共同研发解决方案。中小型企业更多需要将数据和想法转换成产品,他们往往需要开箱即用的解决方案,曙光把常见的框架和界面集成进来,方便他们使用。

  在人工智能和高性能计算领域持续发力

  关于XMachine系列AI服务器的推出对AI服务器行业的影响,也是记者本次采访中比较关注的话题之一。对此,许涛认为,随着AI的持续发展,国外厂商或者ODM的AI服务器已经很难满足本土化的需求,必须通过定制化的产品来服务客户需求,只有走自主研发的道路,推出更适合中国企业的服务器,才能真正帮助他们解决困难,推动AI的应用落地。

  许涛告诉记者,人工智能市场越做越大,大家对它的期望值越来越高,所以从曙光内部来看,未来5年里人工智能将保持高速发展,客户对于GPU服务器或者对高算力服务器的需求非常强劲的。当然,随着需求的持续增长,客户对服务器也产生了一些新的要求,所以在这个时间点上推出XMachine系列AI服务器,将会对后续市场增长超到积极的作用。

  “曙光最早是做高性能计算的,我们的服务器不仅会用在人工智能领域,而且在传统的高性能计算领域也会用到曙光的产品。所以,我们的服务器在设计时就考虑到了不同的应用场景,即能够满足人工智能的需求,也能够满足高性能计算的需求,在AI和高性能计算市场里,快速发展,帮助企业解决计算难题,加速推动AI应用的落地。”许涛如是说。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:张诚 来源: 51CTO
相关推荐

2017-11-02 16:50:46

人工智能 中科曙光

2019-04-19 22:28:59

曙光服务器英特尔

2022-04-27 14:19:18

全球智能应用机器学习人工智能

2014-09-16 14:09:29

中科曙光服务器

2019-07-05 20:54:43

中科曙光

2020-07-17 17:54:00

AI服务器

2020-07-06 14:18:42

曙光

2020-01-06 10:10:27

中科曙光

2023-05-31 14:34:43

2017-10-24 13:43:52

中科曙光AI

2012-11-15 21:01:24

曙光微服务器TC4600M微服务器

2021-04-15 11:27:26

中科曙光

2017-10-20 11:17:58

2011-09-05 14:00:12

容错服务器stratus

2018-10-13 17:32:50

2017-09-15 13:29:16

曙光服务器

2017-09-28 10:19:25

中科曙光

2019-03-27 15:53:55

AIAWSAmazon Poll

2015-10-27 18:27:52

中科曙光技术控
点赞
收藏

51CTO技术栈公众号