“大数据” 需要大量计算资源来存储、组织处理与报告结果。这一新兴领域改变了数据中心服务器与其他基础设施的选择与部署方式。
为了在现今的商业环境中竞争并获得成功,公司必须通过对现有数据进行多维度的分析,才能做出业务决策。分析这些不断膨胀的大数据已经成为越来越重要的趋势与机遇。
SearchDataCenter咨询委员会将介绍受大数据影响的商业模式,如何改变企业数据中心的运作,并为大家提供关于新数据中心机会的独特见解。
只需添加SAN
独立培训师兼顾问Sander van Vugt
大数据其实不是个很严重的问题。我的意思是,数据中心不会突然因为大数据的来到而突然变更他们处理海量数据的方式。
我的看法相当简单:只需添加另一个存储区域网络(SAN),现在的SAN比早期具备更高的可扩展性。这意味着企业可以开始学习处理两个不同等级存储网络的数据:一个是他们正在使用的关键数据,一个是仍然需要被保存,但不那么重要的数据。
业务应用会带来越来越多的大数据机会
IT研究与分析公司Quocirca的创始人兼IT研究与服务总监Clive Longbottom
我们还处在真正企业级大数据的起跑线上,路还很长。
现在,数据中心使用存储虚拟化来组织联合数据源。商业智能(BI)提供更先进的大数据处理方案,如Pentaho、Logi、QlikTech与Birst。基于Java的编程框架Hadoop被更先进的企业作为非持久性过滤器来处理多重数据类型。NoSQL 数据库,例如MongoDB与CouchBase,成为处理非结构化数据的有效利器。管理工具则有Splunk,可以协助完成服务器之间的数据文件管理等工作。
这些工具都需要使用自己的基础设施来支持,并需要精心设计以得到理想的结果。分析及服务提供商不断涌现,提供BI与云计算能力——许多组织最终都会朝这个方向发展,以避免混合环境的复杂性。IBM、Teradata、EMC与其他厂商提供混合设备来满足业务需求,可以满足用户保留所有在线数据并从外部资源吸取额外的信息。混合设备处理架构处理介于与非结构化数据,处理方式比当前的大数据结构更加工程化,但造价也相当不菲。
选好服务器、存储与架构
高级技术编辑Stephen J. Bigelow
选好用于数据分析的工具,如Hadoop与MapReduce软件,它可以将任务分布到数千节点(处理器)上进行计算,并负责将结果收集起来。
软件所使用的高可扩展性任务分布式计算方案与传统的单线程执行有着本质上的不同,意味着大型服务器就拥有***与***的计算能力。可以假设大型的服务器也拥有最多的处理器核心,如Intel的Xeon E7-8800 v2处理器,拥有15个核心,并且支持超线程。数据中心可以通过购买这些服务器来解决大数据计算处理的问题。
精简指令集处理器是许多大数据服务器的另一种选择,它可以提供大量的处理器核心,而产生的热量比传统的x86处理器少得多。Dell开发了基于Calxeda ARM芯片的Zinc服务器来支持企业应用。
虽然更多处理器需要额外的内存空间来处理与存储结果,大数据更专注于计算任务,所以服务器的内存总和可能会非常之大,甚至超过大几百G。例如,HP的ConvergedSystem的Vertica Analytics Platform拥有128G内存,IBM的 System x针对Hadoop的参考架构要求服务器具备384G内存。
大数据服务器同样还可以集成图形处理单元,如NVIDIA公司的Tesla K40,因为GPU被设计为处理复杂的数学计算,如双精度浮点计算可以达到 1.4T flops(一个TFLOPS(teraFLOPS)等于每秒一兆(=1012)次的浮点运算)。大量数学计算可以从多个处理器中卸载到单个GPU上,还无需附加系统内存。
任何大数据平台在评估时都必须考虑基础设施,如网络和存储。多端口网卡可以帮助服务器之间分配工作量。从千兆以太网升级到万兆以太网,可以在大数据环境下发挥更高利用率。还必须有足够多的交换机端口(千兆或者万兆以太网),以满足所有服务器端口的连接需求。此外,IT架构师还可以考虑将每个服务器的端口分摊到不同的交换机上,构建更强大可用的环境。数据中心可能需要为更新型号的网络交换机,提供更多预算。
Hadoop与其他大数据应用程序通常通过使用本地存储与独立处理器,而不是共享存储来提升性能。将磁盘任务分配到许多磁盘上独立运行,可以最小化磁盘延时。同样还可以考虑使用固态硬盘替换传统的机械硬盘,甚至还可以使用更快的、基于PCIE接口的固态硬盘加速卡来提升性能。