如果你的客户计划实施一个TB级的数据仓库,你最好将硬件和软件作为一个整体来进行规划以处理这种大规模负载。他们需要的是一个可扩展的、稳定的、高性能的系统,无须考虑数据量和查询的方式。
然而,这个级别的系统需要花费数月时间进行部署,而且投入生产运行后还需要消耗大量的资源。其实并不一定要这样。你可以向客户推荐一个包含了必要的硬软件的单一、预先配置的集成解决方案。
惠普企业数据仓库一体机(Enterprise Data Warehouse Appliance,EDW)就是这样一种解决方案。它将HP服务器和微软Windows Server 2008和SQL Server Parallel Data Warehouse(PDWAU3.5)整合在一起。如果你正在寻找一个快速无痛的实现方案,这个一体机能够证明是一个理想的解决方案。
惠普企业数据仓库一体机构成
惠普数据仓库一体机配备有多个HP服务器,并预装有建立一个完整的商业智能平台所需的全部软件。一体机分为两个机架:控制机架和数据机架。控制机架用于管理各个节点、处理查询、展现数据、提供备份数据仓库的机制。数据机架在物理上存储和管理数据。
控制机架管理所有的入站查询,与数据机架上的计算节点进行交互。控制机架包括以下四种节点类型,不包括存储节点:
•控制节点:是一个配置有主动节点和被动节点的高可用性集群。主动节点负责接收入站查询、创建执行计划、指示计算节点如何执行查询。被动节点在主动节点失效时,负责接管其工作。
•管理节点:也是一个配置有主动节点和被动节点的高可用性集群。主动节点作为一体机中所有节点的内部域控制器,并作为一个管理界面。被动节点在主动节点失效时,负责接管其工作。
•着陆区:用于在数据加载到计算节点之前,存储被清洗过的数据。
•备份节点:提供数据仓库的备份服务。它拥有自己的存储节点。
一个标准的惠普企业数据仓库一体机数据机架配置包括10个活动计算节点和一个被动计算节点,以及10个存储节点。每个计算节点配置有一个PDW实例。每个活动计算节点处理分配过来的数据,并将其存储在其自己的存储节点中。
控制机架和数据机架的计算节点均使用HP Proliant DL300系列服务器(由HP认证组件构建的企业级服务器)。存储节点使用HP P2000 G3 MSA阵列,提供符合先进RAID管理方式的高密度存储。
预安装、预配置的软件提供一个全面的BI解决方案,包括数据仓库软件及支持抽取、转换和加载操作的ETL软件,所有的硬件和软件特地为PDW进行过优化。任何部署在硬件上的软件首先需要通过微软和惠普的调优、测试和验证。
EDW一体机完全集成标准的SQL Server BI工具,包括集成服务工具、分析服务工具和报表服务工具。此外,EDW一体机也能与非微软的BI系统进行集成,如Informatica、SAS和SAP Business Objects。该一体机还包括Apache Hadoop的自定义连接器。
可扩展性、可靠性、性能
任何一个数据中心中唯一确定的就是数据将不断增长。惠普数据仓库一体机可以随数据增长而扩展。如前所述,一个标准EDW一体机包括一个数据机架(包含10个活动计算节点和一个被动节点),起步的数据存储容量是是150TB。但是,客户可以将系统扩展到四个数据机架(控制机架仍只有一个),这相当于40个SQL Server实例,每个实例都有其自己的数据存储。如此强大的能力,你可以在单个设备中管理600TB的数据。
惠普吸引为那些小数据量(30到60TB的数据)客户提供的一个选择。客户可以购买有二分之一个数据机架仅包含四个活动计算节点、四个存储节点和一个非活动计算节点。随着客户数据的增长,可以扩展到一个完整的数据机架,直至多个数据机架。
如果系统不可靠,那么谈论可扩展性也无意义。一体机的可靠性措施不仅通过其企业级硬件,而且还通过多种已被纳入设计的冗余方法。例如,控制节点和管理节点都是主动/被动集群,以确保系统对入站连接始终是有效的,无论是以管理程序的查询或请求形式访问系统。此外,一个备用计算节点可以根据需要随时联机上线,而RAID阵列为所有的数据存储提供冗余度和可靠性。这种备份机制确保数据仓库可以在灾难发生后还原系统。
基于机架的结构遵循枢纽辐射型体系结构,使用大规模并行处理(MPP)技术,可跨多个计算节点进行分布式查询。这种办法平衡所有的组件,以减少瓶颈和争用。此外,无共享的软件体系结构,与硬件紧密耦合,确保每个查询可以跨节点同时执行。因此,对数万亿行的表的查询也可以以秒为单位返回结果。
实施EDW一体机
速度和易用性,是吸引客户实施EDW一体机的选项。另外,购买一套经过测试和优化可以减少实施时间和降低风险,有助于确保一致且无错的部署。
当然,这样的解决方案产生的一个问题是:在将来某个时候,EDW基本配置可能不能满足客户的需求。如果数据需求的增长超出600TB,或者性能要求超过设备的能力,或者其他的意外事件需要一个不同的配置,这一点是需要关注的。客户买什么是他们的决定。此外,虽然惠普会提供一个与微软密切合作的协作支持模式,客户还必须购买微软软件的许可和技术支持服务。另外,如果你正在讨论海量数据的问题,EDW一体机之类的解决方案是值得考虑。