英特尔大数据智慧:Apache Hadoop更优性能

服务器 Hadoop
英特尔与 Apache Hadoop 社区开展协作,支持系统管理员尽可能地实现其 Apache Hadoop 集群的最高性能——同时保证复杂度处于最低限度。英特尔开发了 HiTune 性能分析器和 HiBench 基准测试套件,用它们来降低 Apache Hadoop 性能调优的复杂性,用户可以在更短的时间内更有信心地设计和实现 Apache Hadoop 解决方案。

随着不断增加的大数据解决方案需求,Apache Hadoop已经迅速成为存储和处理海量结构化和非结构化数据的***平台之一。企业只需在少量基于英特尔® 至强® 处理器的服务器上部署这种开源软件框架,就可用较低的成本迅速开始进行大数据分析。随后可逐步将其 Apache Hadoop 集群扩展到数百乃至数千个节点,从而将多 PB 数据的查询响应时间缩短到次秒级。

英特尔与 Apache Hadoop 社区开展协作,支持系统管理员尽可能地实现其 Apache Hadoop 集群的***性能——同时保证复杂度处于***限度。英特尔开发了 HiTune 性能分析器和 HiBench 基准测试套件,用它们来降低 Apache Hadoop 性能调优的复杂性,用户可以在更短的时间内更有信心地设计和实现 Apache Hadoop 解决方案。

HiTune 性能分析器

Apache Hadoop 的主要优势之一就是比传统数据仓库更容易部署和使用。然而,由于分布式环境的硬件与软件之间存在复杂的交互,因此要优化 Apache Hadoop 集群和工作负载以提高性能会面临重重挑战。为了应对这样的挑战,英特尔开发了 HiTune,为开发人员提供了开发高度可伸缩型应用程序的简单工具。这种可伸缩、轻量级、可扩展的性能分析器可以帮助您向客户交付性能更高的 Apache Hadoop 集群和应用程序。此外,还可以帮助您的客户在其集群的整个生命周期内获得更高的价值。

典型的 Apache Hadoop 查询是使用直观、高级的数据流模型编写的。这对于程序员而言非常理想,因为数据分区、任务分发、负载平衡、容错和节点通信等所有繁杂的细节都由 Apache Hadoop 运行时环境来处理。然而,隐藏这种低级复杂性也会导致性能调优成为一项繁琐的挑战。因为工程师对于硬件与软件之间的低级交互知之甚少,甚至毫不知晓,而这种认识却是理解和优化性能所必不可少的前提。工程师们通常只能依靠漫长而又耗时的试错法,而结果往往也只是能得到次优的性能。

HiTune 将监视 Apache Hadoop 集群中各服务器的关键性能指标,随后汇总这些低级指标,将这些指标与高级数据流模型相关联。这样工程师就可以获得不同任务与阶段之间动态交互的深入了解,并迅速查明拖慢性能的性能瓶颈、应用程序热点和硬件问题。

- 简化和加速性能调优。HiTune 提供了详尽的分析和可视化,对正在运行的应用程序的性能影响微不足道,而且无需修改源代码。英特尔工程师广泛利用这种工具,在很多情况下,仅凭相对简单的硬件或软件调整就实现了高达六倍的性能收益。

-  跨数千台服务器扩展分析。HiTune 可用于分析生产环境中跨数千台服务器运行、包含数十万个同步进程的应用程序。HiTune分析引擎可作为一个 Apache Hadoop 作业来运行,支持通过大规模并行执行海量性能数据的快速分析。工程师不需要分析在一个集群的某个部分上运行的部分应用程序,而是可以收集和分析完整的信心,获得更有用的洞察。

- 逐渐获得更高的价值。英特尔将继续为 Apache Hadoop 和其他分布式大数据解决方案扩展并优化 HiTune。英特尔已经利用 HiTune 调优和优化了 Apache Hive 的性能,Apache Hive 是基于 Apache Hadoop 构建的开源数据仓库。您现在积累的调优专业经验会在未来交付更高的价值。

HiBench 基准测试套件

随着市场的发展,随着客户开始以接近实时的方式利用大数据洞察力来提高收入流、盈利能力和经营效率,优化和验证 Apache Hadoop 集群的性能变得更加重要。利用 HiBench 基准测试套件,您可以跨不同的工作负载准确而又一致地度量、验证和对比 Apache Hadoop 集群的性能,为客户提供更出色的信息和信心。

HiBench 提供了对 10 种易于使用的 Apache Hadoop 工作负载的便捷访问,这些工作负载经过扩展、配置和定制,能够反映典型的部署。您可以为特定的通用任务度量性能,例如排序和文字计数,或者为更加复杂的实际应用度量性能,这些应用包括 Web 搜索、机器学习和数据分析。不同的工作负载具有不同的特征,使您能够建立测试矩阵,体现特定环境的资源需求。

英特尔将继续扩展和改进 HiBench,还会与领先供应商和标准实体联手协作,开发针对 Apache Hadoop 的行业标准性能基准测试。建立这些基准测试之后,您就具备了理解架构问题、度量和验证 Apache Hadoop 解决方案性能的更好基础。

构建一个经过验证的基础

设计全面优化的 Apache Hadoop 集群需要深入理解整个解决方案体系。可能要投入数月的时间来探索 Apache Hadoop 工作负载特征,并了解如何与底层硬件和软件交互。还可以利用英特尔多年来与目前运行某些全球规模***、最成功的 Apache Hadoop 实现的企业之间共同研究和协同使用所得到的专业经验,这些企业包括 Google、Yahoo! 和某些***的电信与金融服务企业。

英特尔将这种专业经验构造成为参考架构、调优指南和***实践建议,可以将它们用作设计和部署 Apache Hadoop 集群的起点。利用从硬件规范直至完整软件架构的明确指南,可以更迅速、更经济地设计、构建和配置最适宜的解决方案。

还可以在多种领先 Apache Hadoop 发布版中任意选择,所有这些发布版均已针对英特尔至强处理器而高度优化。英特尔与 Cloudera、Hortonworks、IBM 和其他商业经销商合作,确保运用的是已专门针对企业环境中的生产就绪性而进行扩展、加强和测试的软件,在英特尔架构上实现***性能。

责任编辑:路途 来源: 51CTO
相关推荐

2013-02-28 10:04:27

英特尔Hadoop大数据

2013-02-27 10:19:35

英特尔大数据Hadoop

2013-05-21 10:24:11

英特尔大数据Hadoop

2013-11-22 15:18:27

2013-08-19 09:04:25

英特尔大数据

2013-05-20 10:06:52

英特尔大数据行业

2014-01-17 10:48:25

英特尔大数据技术

2013-04-09 20:04:08

大数据英特尔存储

2013-04-27 11:43:19

大数据全球技术峰会

2013-07-04 16:13:02

大数据

2014-03-14 00:46:56

2013-05-21 09:38:06

2013-03-07 10:16:04

红帽

2013-03-15 17:37:33

Hadoop英特尔CPU

2013-03-07 10:56:03

英特尔HadoopXeon

2013-12-19 10:06:18

英特尔Hadoop

2013-04-13 14:10:27

大数据应用落地英特尔

2014-04-03 14:23:02

英特尔统一固件管理套件

2013-03-13 11:41:12

Hadoop英特尔研发周期

2013-02-28 10:32:07

hadoop英特尔apache
点赞
收藏

51CTO技术栈公众号