NVIDIA 全栈网络产品助力点存科技网络架构创新

原创
服务器 数据中心
点存科技在启动GPU Cloud项目之后,发现这个行业的门槛要求特别高,不但需要强大的GPU资源,并具备机房建设、配套服务等能力之外,对于网络的要求也非常高,要具备让用户调用任意一块GPU资源的网络能力。

  【51CTO.com原创稿件】在数字化转型过程中,企业对于算力的追求是永无止境的,特别是随着人工智能等新技术的发展,企业对于算力的要求越来越高,如何有效提升算力,确保新技术的应用落地,成为摆在企业面前的主要挑战。

  近年来,虽然GPU的算力在不断提高,训练方法上也取得了重大的进步,但是在单一机器上,大型网络训练所需要的时间仍然长得不切实际。点存科技CEO李浩天在近期接受记者采访时表示,政企机构对GPU等算力资源的需求呈现短期性和集中性的特点,这类高速发展的高强度并行运算需求,自建计算资源成本巨大,通过将闲置的计算资源进行整合,以分布式资源池的方式提供给市场,这种按需使用、按量付费的方式越来越受到企业欢迎。

  解决计算资源不足问题,分布式云计算平台成为最佳选择

  从单机计算到传统数据中心系统,再到基于云的基础架构平台,每一次计算模型的变革,信息处理效率和安全性都会有大幅度的提高。

  如今,CPU、GPU、FPGA等芯片在技术上取得了突破,性能有了质的提高,且软件框架也有了明显的优化。但是,相对于爆炸式增长的数据和各种复杂的计算需求,算力仍然无法满足企业的要求。随着区块链技术和分布式账本技术(DLT)的发展,分布式云计算平台迅速发展,并以其灵活性、透明性、安全性、可溯源性、降低成本等诸多优势,成为解决企业算力不足的最佳解决方案。

  除此之外,在分布式云计算平台上,用户能够像使用传统云平台一样,轻松开发和部署分布式的应用程序。实际上,点存科技开发的DC-Cloud就是这样的一个平台。

  作为新型分布式云平台的科技型企业,点存科技凭借自身大量的存储和计算资源,利用分布式网络构建了一个全新的分布式云平台:DC-Cloud。在平台上,用户可以选择存储托管自己的文件(包含图像、脚本、视频等),且所有的文件将被采用默克尔DAG格式进行存储,保证隐私性和安全性。

  同时,DC-Clould能够结合IPFS、IPNS、Filecoin等系统,在分布的Web上运行任何serverless的Web应用程序。相对于传统的中心云存储平台,用户能够享受低成本的同时保证存储资料的安全性和隐私性,也不用顾虑中心云平台的选择问题。

  据了解,点存科技的数据中心采用了基于NVIDIA SN系列白盒以太网交换构造的三层五级CLOS架构,IP Fabric形式组网,并使用基于EVPN-VxLAN提供的业务层服务。之所以选择与NVIDIA合作,在李浩天看来,NVIDIA不仅拥有行业最优的产品和解决方案,而且在方案的规划、部署和实施中更具有大量的优化技术和实践经验。

  谈到双方的合作,NVIDIA网络事业部以太网产品总监王栋表示,NVIDIA与点存科技的合作,一是对新一代产品和技术有迫切的需求,希望能够构建新的产品和服务,满足用户要求;二是NVIDIA拥有满足点存科技需求的整套解决方案。因此,双方一拍即合,共同完成了新型云服务的实践落地。

  NVIDIA以高性能网络产品,助力点存科技构建GPU Cloud

  构建GPU Cloud并非是一件简单的事情,需要强大的GPU、网络以及软件能力的支撑。

  李浩天告诉记者,点存科技在启动GPU Cloud项目之后,发现这个行业的门槛要求特别高,不但需要强大的GPU资源,并具备机房建设、配套服务等能力之外,对于网络的要求也非常高,要具备让用户调用任意一块GPU资源的网络能力。此外,还需要不断地进行软件调优,做到用户之间不相互干扰的同时,确保资源的合理利用。

  据介绍,在产品选择上,点存科技追求极致,最终选择了25G以太网,作为其基础接入的带宽颗粒,100Gb作为其标准的汇聚带宽颗粒。整套方案最终采用了基于英伟达SN系列白盒以太网交换构造的三层五级CLOS架构,使用了NVIDIA的ConnectX-5系列25G高性能网卡,该款网卡具备支持高性能应用能力,功能挖掘空间巨大。最终,点存科技实现了远程GPU和本地GPU性能差距控制在3%以内的理想目标。

  除此之外,在NOS平台选择上,点存科技根据自身需求,在白盒平台上使用了NVIDIA Cumulus操作系统,实现了快速部署,有效提高自动化、管理、监控方面的应用水平。在可视化方面,依托NVIDIA以太网交换机内置的“What Just Happened”(故障快照)技术,点存科技的运维人员可以第一时间发现和定位网络故障,并可以立即获得故障原因,从而提高故障定位和修复速度,显著降低了运维压力。

  NVIDIA网络事业部拥有独特的高性能网络产品技术栈和产品栈,从应用API开始,支持传统TCP,支持基于RDMA的Verbs,穿越整个业务栈,包括协议栈到达底层。王栋表示,在底层,涵盖了交换机网卡芯片、DPU芯片(智能网卡芯片)、线缆、高性能芯片以及高性能芯片交换系统,构建了业界独特的、端到端的产品和技术支持,以此来支持高性能产品的应用。

  王栋告诉记者,在与点存科技的合作上,双方通过大量的沟通交流,最后决定使用工业界的最佳实践。据了解,这些最佳实践更偏向于新兴互联网公司,它基于白盒,使用三层五级Cloud架构,基于IP Fabric体系,基于Spectrum交换芯片。而这样的基础设施,已经被实践证明能够很好地支持大型的基础设施,具有非常好的可维护性、可靠性以及成本优势。

  王栋表示,Spectrum交换芯片是NVIDIA的自研产品,它具有非常高的转发性能,能够帮助用户进行自动化组网,有非常清晰、精确的遥测功能,能够减轻运维的压力,最终提升整个网络的可靠性。

  以开源生态,推动架构创新转型

  以新技术帮助客户实现架构转型,构建更加开放的创新架构,是NVIDIA始终坚持的技术路线。

  “NVIDIA推动新技术实践主要是为了帮助用户从传统封闭架构转向新兴的、可以使用货架产品的新体系,并允许用户无论是在硬件底层还是操作系统层,甚至于上层Overlay技术的选择,以及Fabric构造技术的选择上,都可以来占据一个主导地位,而不是被一个厂家的专有技术来阻碍。” 王栋表示,同时,NVIDIA网络事业部的整套产品就是按照这样的架构来进行设计的,这些产品可以开放底层选择硬件,也可以开放选择平台,上层OS根据用户需要可以选择厂家的收费产品,也可以使用开源的NOS。因此,用户可以非常容易集成应用,满足企业定制化的要求。

  他强调,这些创新的架构,必须要具有非常好的经济性。

  在与点存科技的合作上,NVIDIA在开源生态以及底层对开源支持上投入是非常大的精力,这样以来,点存科技的用户可以灵活地选择闭源产品和开源产品。

  王栋表示,NVIDIA的OS和开源OS是基于相同的SDK以及相同的硬件,上层是基于使用相同的路由栈和网管栈,给用户一个非常好的选择和非常好的投资保护,允许用户无论想使用收费软件还是想使用开源软件,都能够找到非常灵活、有利的位置。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

 

责任编辑:张诚 来源: 51cto
相关推荐

2012-11-15 10:04:13

BYOD移动设备Wi-Fi

2012-11-21 16:38:49

网络·安全技术周刊

2012-03-07 20:41:46

华硕CeBIT

2011-08-19 13:11:34

2012-12-17 10:15:04

无线路由器WLAN

2012-01-11 15:47:47

华硕CES

2012-08-30 09:53:43

戴尔

2013-12-04 16:34:47

网络人远程控制

2010-07-08 16:54:35

校园电教网网络产品思科

2013-08-07 15:34:52

2011-02-18 15:20:51

IBMZ系列刀片

2012-11-23 15:28:08

华硕网络产品

2021-09-16 19:57:05

华为云云原生

2009-03-11 14:14:47

2009-04-09 14:12:37

2013-12-12 15:23:58

华为数据中心网络Windows Ser

2011-06-10 12:38:16

斐讯Computex

2019-01-08 10:34:45

浪潮网络网络产品奖

2020-04-28 09:54:52

网络安全技术网络产品
点赞
收藏

51CTO技术栈公众号