英特尔马子雅:硬件和数据平台最终为了应用,为了数据分析

原创
服务器
无论是硬件还是数据平台,最终还是为了应用,为了做数据分析。在分析应用方面,英特尔跟很多的客户和合作伙伴进行了合作,加速他们的分析应用,包括机器学习在英特尔平台上的部署。例如零售行业通过机器学习对客流行为做出一些分析,为未来做一些预测。

  在物联网和大数据时代,如何将物联网和终端的数据分析进行更多的结合?怎样实现数据收集和商业决定的实时结合?怎么样提升机器学习模块的可扩展性,更快的缩短机器学习的周期?如何把大数据平台和最终机器学习模块无缝结合?种种这些,都是企业面临的困惑和必须解决的难题。在英特尔&Cloudera数据分析媒体沟通会上,笔者有幸采访了英特尔公司软件与服务事业部副总裁/系统技术和优化部门大数据技术总监马子雅女士,并针对这些问题进行提问和交流。

[[169642]]

  一、英特尔硬件技术让大数据机组性能提高7倍

  众所周知,大数据的发展速度非常快,越来越多的企业开始利用大数据获取商业价值。在谈到大数据发展过程中遇到的难题时,马子雅女士表示,大数据是未来最有希望的一个产业,目前90%的数据量都是过去两三年时间产生的,到2020年有500亿互联设备,会产生10000 GB的数据量。

  随着物联网和大数据的发展,客户已经不再满足于只是有一个终端的分析应用的解决方案,怎么样实时的把数据收集和最终的需求更好地实时的结合在一块儿,这是未来的发展趋势。谈到挑战,马子雅女士认为,一个是原始数据的收集和海量数据的收集,怎么样能进行实时的分析?另外一个是什么样的数据在客户端,什么样的数据到数据中心进行实时的分析处理?英特尔在大数据方面已经做了很多年,最终目标是希望任何大数据用户能够在英特尔的平台上获得最好的数据洞察力,实现最快最便捷的数据分析速度。为了实现这一目标,英特尔在硬件方面做了很多的创新。

  她表示,在硬件上英特尔无论是从网络、存储还是运算等各个方面,对很多的大数据项目进行了优化,保证他们能够在英特尔的平台上实现性能的大幅度提升。过去几个月,英特尔推出了至强E7 v4处理器,它是进行实时分析最快的处理器。此外,还推出了至强E5 v4,它能够使大数据的机组非常容易得扩展开来。除了处理器之外,英特尔推出了存储的3D XPoint,这是最新的非易失性存储技术,性能提升相当明显。马子雅女士表示,客户通过迁移到新一代英特尔的硬件技术上,大数据的机组性能能够整整提高7倍。

  马子雅女士还通过一个案例对英特尔硬件性能进行了详细的介绍。中国比较大的互联网公司已经部署了大的Spark机组,我们只需要在他们原有硬盘的基础上,为每个服务器加上一个英特尔的SSD的存储,整个机组性能可以提升20%。在此基础上,我们又开发部署了Hierarchical storage management Solution,层次性存储软件,可以再次提升大数据机组性能,最后使得整个性能提升达到70%。最终,这个客户以比较低的成本取得了类似于内存缓存的性能。

  二、英特尔把大部分源代码都贡献给了开源

  谈到硬件的发展对于大数据的软件、对于大数据的生态系统能带来什么帮助呢?马子雅女士表示,大数据领域受开源影响比较大,无论是Hadoop生态系统还是Spark生态系统,受到开源的影响力很大。在过去几年时间里,英特尔与开源做了很多合作,最近也推出了一些开源项目,比如TAP,Trusted Analytics Platform,它是用来加速基于云的分析应用程序的开发。

  英特尔做这些工作是希望看到大数据的用户能够在英特尔的平台上有非常好的用户体验,包括从分析应用、到机器学习都能够有比较好的用户体验。所以我们和很多业界同行、客户有很多的合作关系,比如从Hadoop相关的项目、Spark相关的项目、包括SQL,包括存储、云结合方面都做了很多工作,重点是添加性能、改善它的稳定性、可扩展性、提升性能、提升数据的保护等等。在机器学习方面,尤其是帮助客户扩大机器学习模块的可扩展性方面,达到10倍至70倍,并且可以缩短机器学习的周期达到8倍。另外,英特尔把大部分源代码都贡献给了开源。

  马子雅女士表示,在传统的Hadoop里面,我们为了恢复可能的数据丢失或者数据故障,通常把每个数据块存储三次,这就直接带来了多于200%的存储消耗。英特尔和Cloudera在开源共同主导开发了一个项目HDFS Erasure Coding,就是删除编码这个项目。这个项目可以把存储成本降低整整一半,并且把编码器、解码器的性能提升30倍,即使和新的JAVA解码器和编码器相比性能也提升了6倍,主要是利用了英特尔硬件了的硬件指令AVX、AVX2、SSE以及在此基础上优化的存储加速库。

  三、硬件和数据平台最终为了应用

  谈及英特尔未来一段的软件研发投入是否主要倾向于至强融核(Xeon Phi)平台,马子雅女士表示,英特尔目前大部分工作都在至强平台上,随着深度学习、机器学习在大数据分析应用领域占的比重越来越大,英特尔在过去两年的时间里更多的人员投入到这方面的研发,包括软件和硬件我们都放了很多,比如说至强融核(Xeon Phi),这是一个主要的硬件趋势。另外就是FPGA,英特尔刚刚收购了Altara,这是一个大手笔的投资,是重要的机器学习的平台,我们会争取让它们有统一接口。另外,我们希望用户在原来跑深度学习、机器学习在至强上,可以无缝的放在至强融核(Xeon Phi)、FPGA上,这都是未来努力的方向。

  关于目前很多大数据公司提到的大数据性能已经做到了怎样的一个状态,马子雅女士表示,大数据的基准测试的标准化是非常重要的一个方向,英特尔在这方面引领了业界的基准测试的标准化,尤其是制定了Big Bench、High Bench的测试标准,我们希望通过这样的标准帮助业界更精准的了解大数据在微观以及端到端的性能。

  她强调,无论是硬件还是数据平台,最终还是为了应用,为了做数据分析。在分析应用方面,英特尔跟很多的客户和合作伙伴进行了合作,加速他们的分析应用,包括机器学习在英特尔平台上的部署。例如零售行业通过机器学习对客流行为做出一些分析,为未来做一些预测。

  谈到机器学习的痛点,马子雅女士表示,机器学习模块的可扩展性不够高,最多只能分析几十万或者上百万的样本,预测不够精准,这是很头痛的事情。针对这些存在的问题,英特尔做了许多领先的工作,我们帮助很多企业,包括京东、奇虎360,我们把他们的机器学习的模块可扩展性提高10倍,比如京东现在可以10倍的细致地分析它的客流行为。如果你到京东的网页,它会给你更个人化、更有针对性的产品推介,所以它的业务效率现在比以前有很大的提高。

  在支付产业,英特尔为合作客户提供了一个完整的端到端的机器学习的流水线,从一开始的机器学习样本的收集、存储、管理,在此基础上建立管理特征。用这些特征对机器学习的模块进行培训,把大数据平台和最终机器学习模块无缝结合,尤其是Spark、Hadoop和机器学习模块无缝结合,帮助支付企业实现流水线,使它的卷积神经网络收敛速度提高30倍,主要通过对硬件、软件的优化,帮助这些支付企业更精准的进行防欺诈。

  谈到英特尔在未来的方向,马子雅女士表示,英特尔希望把物联网和终端的数据分析进行更多的结合,尤其是物联网越来越发展的情况下,怎么样把数据收集和商业决定实时结合在一块儿。另外就是怎么样提升机器学习模块的可扩展性,怎么更快的缩短机器学习的周期,这都是未来的方向。

责任编辑:张诚 来源: 51CTO
相关推荐

2016-12-16 12:06:09

数据分析大数据

2017-07-21 13:02:30

英特尔Cloudera

2015-09-24 14:52:29

英特尔数据分析精准医疗

2013-08-19 09:04:25

英特尔大数据

2013-02-28 10:04:27

英特尔Hadoop大数据

2014-03-14 00:46:56

2013-11-20 11:30:12

英特尔超算技术大数据分析

2013-05-20 10:06:52

英特尔大数据行业

2009-07-29 18:38:26

2013-09-09 11:25:34

英特尔IDF凌动

2013-05-14 10:24:39

HTML 5英特尔标准

2013-10-09 16:32:56

开源英特尔Arduino

2017-04-14 09:05:25

金山云英特尔

2022-08-05 11:33:36

英特尔技术

2013-12-22 15:07:07

企业应用英特尔数据中心

2010-08-20 12:31:53

McAfee最终收购协议英特尔

2013-11-22 15:18:27

2013-05-09 09:47:47

英特尔

2016-05-10 10:43:02

2017-01-19 11:36:28

英特尔大数据分析BigDL
点赞
收藏

51CTO技术栈公众号