最近,由Platform Computing和SAS研究所共同赞助的一项华尔街科技调查显示,各种规模和类型的企业,无论其是买方还是卖方,都认为不断增加的数据量是进行业务分析时面临的最大挑战,因此,在未来的一年里,它们将优先投资于能敏捷分析和强有力的处理技术。对内部和外部数据进行预测分析将使得金融服务企业可以更好、更主动地管理和解决各种可能遇到的信贷和经营风险、欺诈和声誉风险、客户忠诚度和盈利能力等问题。
数据的增长,尤其是诸如电子邮件这样的非结构化数据的增长为企业带来了特殊的挑战,数据类型的多样化和数据量的急剧增长使得传统的关系型数据库难以应对,因此,金融服务企业正在针对数据分析研究下一代数据处理技术。
对于处理“大数据”来说,最有发展前景的技术之一是Apache Hadoop软件和MapReduce框架。然而,现有的Hadoop软件还缺少金融服务企业大规模部署MapReduce应用时所需的企业级鲁棒性。
在现有的MapReduce解决方案中,Platform公司的Platform Symphony MapReduce是最适合于投入生产环境中的产品,也是同类产品中的佼佼者。Platform Symphony MapReduce是一种面向MapReduce应用的企业级分布式运行时引擎,旨在为MapReduce应用提供可随时应用到生产环境中的各种功能,诸如很高的资源可用性和可预测性、支持多种应用和文件系统、操作成熟度、SLA策略控制以及极高的资源利用率。Platform Symphony MapReduce以Platform Computing公司多年来在分布式工作负载调度和管理领域的丰富经验为基础,其成熟的技术支持着《财富》500强中众多公司要求极为苛刻的关键型任务的运行,为企业级的MapReduce应用提供了前所未有的分布式工作负载运行时服务。
Platform Symphony MapReduce是一款拥有增强版MapReduce框架的企业级产品,其功能与Apache Hadoop的功能完全兼容,解决了组织机构在目前可用的Apache Hadoop环境里部署MapReduce应用所面临的主要运行风险。
Platform Symphony MapReduce包括以下主要模块(见图1):
Platform Symphony MapReduce为企业级MapReduce应用提供了以下主要功能:
策略驱动型工作负载调度器
Platform Symphony MapReduce策略驱动型工作负载调度器提供了10,000个优先级,支持多个MapReduce作业并行运行。这种策略驱动型调度器的功能包括为抢先式作业提供资源优先级,并对Map作业和Reducer作业进行公平调度,这一切都在作业层进行,以提供更好的细粒度和控制度。
极高的资源可用性
Platform Symphony MapReduce在分布式运行时引擎中确保了正常运行时间——因为没有单一故障点。它提供了作业跟踪器/任务跟踪器自动实现故障切换和作业恢复,无需重新启动作业。Platform Symphony MapReduce为Hadoop文件系统提供了在Hadoop分布式文件系统里自动实现故障切换的功能,并提供了文件系统恢复和相关作业恢复功能。
为应用开发和文件系统的选择提供了开放式架构
Platform Symphony MapReduce采用开放式架构,支持多种MapReduce应用,确保Hadoop应用与基于Java的MapReduce作业之间百分之百的兼容性。内置在产品中的应用适配器(Application Adapter)技术提供了与Platform MapReduce无缝的应用集成,如此一来,采用Hadoop MapReduce技术(Java、Pig、Hive及其他技术)构建的作业无需改动编程逻辑,即可在Platform Symphony MapReduce上执行。这种开放式架构还提供了一种方法,可充分利用多种类型的文件系统和数据库架构。Platform Symphony MapReduce全面支持HDFS、GPFS及其他分布式文件系统类型和数据类型。此外,就MapReduce进程而言,输入数据源文件系统的类型可以不同于输出数据源文件系统。这便于支持许多应用,包括抽取、转换和加载(ETL)工作流逻辑。
支持同一集群上运行的多种MapReduce应用和混合类型的工作负载
Platform Symphony MapReduce为MapReduce工作负载支持多达300种不同的应用(作业跟踪器),以及其他类型的分布式应用。这让客户可以充分利用现有资源和新资源,最大限度地利用IT基础架构,同时只需使用单一管理界面。
支持滚动升级
Platform Symphony MapReduce支持在同一集群上运行的多个版本的MapReduce应用,无需停止运行整个集群,就可以升级软件。运行升级后应用的服务器可与其他节点上前一个版本的软件产品共存,因而可以在一组服务器上逐步进行升级,无需让整个集群停止运行。
更出色的监控和故障排除功能
Platform Symphony MapReduce可监控处理器和内存的使用量,并相应分配资源。它提供了从单台服务器获取日志数据,并从单一界面来管理这些数据的功能。
极强的数据亲和力
Platform Symphony MapReduce拥有强大的数据亲和力(data affinity)功能,通过在调度管理MapReduce工作负载时充分考虑数据位置,大幅提升应用性能和资源利用率。其数据亲和力功能节省了MapReduce应用访问大量数据所需的时间。通过加快文件访问速度,它可以将总的应用性能提升400%。
Platform Symphony MapReduce目前已经在多个关键的市场广泛采用,其中包括金融服务、政府机构、零售业和生命科学等行业,为遍及各大行业的全球财富500强企业中要求最为苛刻、关键任务的分布式计算工作负载提供支持。