在数字时代的今天,数据已经成为企业的核心资产,为业务创新与企业发展提供价值。不过,随着5G、云计算、物联网等技术的飞速发展,企业获取数据的方式变得越来越简单,数据量呈现爆炸式增长的态势。对于企业而言,如何快速分析数据,挖掘数据价值,变得至关重要。
目前,Cloudera推出使用NVIDIA GPU加速Apache Spark 3.0软件的Cloudera Data Platform(CDP)。最新版本的Cloudera Data Platform采用通过NVIDIA技术加速的Spark 3.0,能够帮助操作团队实现8倍性能提升,从而成功运行一项原本不可能完成的工作。
携手NVIDIA,用GPU加速赋能企业洞察
众所周知,利用GPU的强大计算能力,并行处理数据已成为加速海量数据分析和ETL管道,进而驱动工作负载的关键。因此,当前数据中心通过大规模横向扩展这些功能支持复杂的数据分析项目。
Cloudera认为,数据骤增将让企业有机会更快、更好地作出业务决策。同时,海量数据也给企业数据中心带来巨大的计算压力。为此,Cloudera通过与NVIDIA合作,以NVIDIA GPU计算功能支撑的Cloudera Data Platform可以利用近乎无限数量和种类的数据,支持企业加快决策速度。
通过与NVIDIA的合作帮助Cloudera能够在集群中驾驭GPU,当出现此类技术进步时,需要一段时间来认识它们的力量并开发可以使用它们的应用。Cloudera Data Platform作为业界首个企业数据云,集成化数据平台可以帮助企业在向云迁移的过程中,更好地管理和保护数据。
通过Cloudera Data Platform与NVIDIA RAPIDS和AI相结合,令使用Apache Spark的企业能够以前所未有的速度获得业务洞察。
应用案例:以数据为依据的洞察来推动关键任务用例
在线上媒体沟通会上,来自美国国税局团队的应用案例引起了笔者的兴趣。
作为一名数据科学家,Deborah Tylor的任务是整理美国国家税务局超过300 TB的数据库,寻找可能有助于识别身份盗窃和其他欺诈行为的规律。但即使她让一大批CPU服务器工作了一整夜,也无法完成这项数据整理工作。Cloudera的解决方案工程师Nasheb Ismaily询问Tikekar的团队是否需要使用自带GPU加速Apache Spark 3.0软件的Cloudera Data Platform(CDP)。
对软件进行快速测试后,在没有修改任何代码的情况下,Tylor在这项工作中的许多步骤就立即加快了5倍,但有几个部分仍然滞后。为此,Ismaily召集了NVIDIA数据科学家团队来检查代码的核心内容。他们很快就发现一些数据结构非常糟糕的任务仍在CPU上运行。于是他们编写了代码来处理这些工作并将其插入Spark的RAPIDS软件接口中。RAPIDS是一个在GPU上运行数据分析的开放资源库。
通过测试发现,一切数据都能在分布式Spark集群的GPU上顺利运行,而且速度提升非常明显。因此,该团队计划把其成功经验运用在数据准备,也就是数据分析中的提取/转换/加载(ETL)方面的工作上。下一步重大计划是加速各类AI推理工作。
据美国国税局研究和应用分析与统计部门技术主管Joe Ansaldi表示,通过Cloudera和NVIDIA的这一技术整合,利用以数据为依据的洞察来推动关键任务用例。
通过Cloudera合作的案例不难看出,NVIDIA将通过GPU加速来推动更多在数据分析、AI等领域中计算需求。