【51CTO.com原创稿件】以前大家都当数据科学家,因为数据科学家不是在喝咖啡,就是在喝咖啡的路上。毕竟,数据加载的过程非常漫长,需要很长时间进行数据下载、数据抽取、数据转换等等。不过,有了全新的GPU加速平台后,数据科学家可能就会高兴不起来了,因为这将大大减少他们喝咖啡的时间。当然,对于IT manager或者企业管理者来说,是极大的利好消息。
在今年10月10日的GTC欧洲大会上,NVIDIA正式发布了新的GPU加速平台:RAPIDS。
赵立威,NVIDIA亚太区解决方案架构高级总监
在本周NVIDIA北京办公室举行的RAPIDS媒体沟通会上,NVIDIA亚太区解决方案架构高级总监赵立威表示,当前我们已经进入了数据驱动的时代,任何决策的制订都需要数据支撑。如果需要花费数十个小时甚至几天、周周的时间来分析数据,对于决策者来说简单是无法容忍的。
50倍的加速
RAPIDS的三大关键词是:面向数据科学和机器学习、软件平台、开源。
赵立威表示,几乎每家企业都在利用数据驱动业务发展,一旦离开数据,零售、互联网等任何行业和领域的商业行为,将不可想像。因此,秒级甚至毫秒级的数据分析能力,至关重要。
RAPIDS就是希望帮助企业以“前所未有”的速度分析海量数据并进行精准的业务预测,用户只需要进行非常小代码的变化量,就能够带来50倍的加速,这给数据科学家带来了极大的信心。
据介绍,最初的RAPIDS基准分析利用了XGBoost机器学习算法在NVIDIA DGX-2TM系统上进行训练,结果表明与仅有CPU的系统相比其速度能加快50倍。他能够帮助数据科学家将典型训练时间从数天减少到数小时,或者从数小时减少到数分钟——具体取决于其数据集的规模。
赵立威表示,如果用户想体会RAPIDS的优势,特别是大型项目所能带来的优势,可以先从DGX station这种小型的可以放在脚边的机器开始试用。但是,想要体验在生产环境中的性能,就需要用DGX-2这种能够带来50倍加速体验的产品,非常令人震惊。
目前,除了DGX-2、DGX-1、DGX station等硬件产品支持RAPIDS之外,基于NVIDIA HGX-1、HGX-2这两种架构的硬件产品均提供对RAPIDS加速的支持。此外,NVIDIA众多合作的ODM、OEM厂商提供的一些硬件产品,也开始支持RAPIDS。
完全开源的软件平台
RAPIDS是一个软件平台,而且是一个完全开源的软件平台。
在GTC欧洲大会上黄仁勋曾在演讲中介绍,RAPIDS构建于Apache Arrow、pandas和 scikit-learn等流行的开源项目之上,为最流行的Python数据科学工具链带去GPU提速。
据了解,为了将更多的机器学习库和功能引入RAPIDS, NVIDIA 广泛地与开源生态系统贡献者展开合作 ,其中包括 Anaconda、BlazingDB、 Databricks、Quansight、scikit-learn、Ursa Labs 负责人兼Apache Arrow缔造者Wes McKinney,以及迅速增长的Python数据科学库pandas等等。为了推动RAPIDS的广泛应用,英伟达也努力将RAPIDS与Apache Spark进行整合,后者是分析及数据科学方面领先的开源框架。
赵立威表示,RAPIDS的开源有两层含义,第一个含义是说整个RAPIDS是NVIDIA跟所有的开源社区合作,不管是SPARK、PYTHON、APACHE ARROW还是DASK,NVIDIA都与他们保持着非常紧密的合作。第二,RAPIDS平台本身是开源的,我们希望通过这种方式吸引更多开源的朋友参与进来,贡献他们的代码、贡献他们的智慧,不断的完善整个平台上的创新、丰富上面的基础特性,服务我们更多的场景。
因此,RAPIDS是从开源社区中来,到开源社区中去。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】