关于大数据的概念,业界众说纷纭。其中最著名的是权威研究机构Gartner给出的定义:大数据是超出常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力。大数据的“大”并非单纯的数据容量,数据的速度、复杂度和多样性都是大数据的关键特征。
大数据往往来自全新的数据源,其中非结构化数据是绝对的主力军。非结构化数据是指那些不方便使用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。IDC报告指出,全球数据量每18个月就要翻一番,每年全球产生的数据量已经高达40EB(1EB=1000PB),而这些疯狂增长的数据则主要来自于非结构化数据。
随着大数据研究的不断深入,非结构化数据的作用日益凸显。据凯捷咨询与《经济学人》信息部联合研究显示,有58%的高管人员依赖非结构化数据分析做出业务决策。然而,非结构化数据早已超出传统数据库的存储和处理极限,目前很多厂商将其作为单独的技术挑战来对待。
为了进一步帮助企业处理不断增长的非结构化数据,全球最大的开源技术厂商红帽公司,面向非结构化数据推出开源存储软件解决方案——Red Hat Storage Server 2.0,也称红帽存储2.0。
红帽存储2.0:大数据管理利器
红帽是全球知名的开源解决方案提供商,使用社区驱动的方式提供可靠和高性能的云、虚拟化、存储、Linux和中间件技术。作为第一家收入突破10亿美元的开源厂商,红帽认为开源的商业模式具有无限潜力。红帽公司总裁兼首席执行官卫赫士在去年访华时曾表示,红帽在未来五年内销售收入将突破30亿美元。
红帽最受欢迎的产品当属红帽企业Linux,这是全球应用最广的Linux产品,也是造就红帽影响力的巅峰之作。然而红帽的发展不限于此,其产品策略紧随IT趋势不断发生着变革。近几年,随着云计算产业的不断深入,红帽提出以云计算为突破口,以虚拟化为着力点,构建混合云生态系统的产品策略。伴随2013大数据元年的到来,红帽的产品策略也似乎开始向大数据倾斜,据卫赫士预测,在未来的20年里,大数据将会成为主流技术,将改变很多企业的核心价值。
存储2.0就是红帽进军大数据的突破口。红帽存储2.0是一款可向外扩容的开源存储软件解决方案,主要用于海量非结构化数据的管理,是行业中首个能和对象存储轻松整合在一起的文件存储解决方案,有效扩展以满足非结构化数据暴增的需求。它可以配置在预设平台中,也可以配置在私有云、公有云或者混合云环境中,用来优化存储密集型企业级工作负载。
追本溯源,这款开源存储软件来自于红帽2011年10月收购的Gluster——这是一家专注于横向扩展存储的开源软件初创公司,其开发的GlusterFS开源文件系统和Gluster存储平台软件堆栈作为核心技术,为大数据的存储管理与访问提供支持。其中,GlusterFS开源文件系统是一套可扩展的开源集群文件系统,并能够轻松为客户提供全局命名空间、分布式前端以及高达数百PB级别的扩展性。
GlusterFS类似于Hadoop中的HDFS,但其相较于HDFS的最大优势在于:它通过使用其自有的弹性Hash算法,实现了网络附加存储的大规模扩展,而没有借助元数据实现这一过程。元数据是用来描述数据的数据,在某些情况下可能成为HDFS失败的元凶,抑或线性可扩展性的阻碍。GlusterFS的这一特点极大的提升了数据寻址访问的速度,同时消除了其他大数据系统常见的单点故障,数据冗余负荷与无限扩展的瓶颈。
此外,红帽存储2.0还能够与Apache Hadoop完美兼容,存储2.0提供大数据的存储管理与访问,Hadoop提供技术框架。GlusterFS既可以Hadoop HDFS整合在一起,也可以作为HDFS的替代产品,实现更加快速的文件访问。红帽存储的Hadoop插件为企业提供了一种全新的存储选择,在为用户提供企业级存储特性的同时,还能保证API兼容和本地数据对Hadoop的访问。
红帽大数据解决方案:将开源做到极致
红帽存储2.0在大数据的存储管理和数据访问层面为用户提供高性能和可扩展的解决方案。除了存储,红帽的大数据解决方案还包括Linux、JBoss中间件、企业虚拟化等产品家族,并通过开放式混合云模式来满足用户对企业级大数据的需求。具体来说,包括以下解决方案:
·红帽企业Linux:作为红帽的旗舰产品,企业Linux是管理大数据最佳平台。由于红帽企业Linux擅长利用分布式体系解决大数据的关键需求,用户可以将红帽存储构建在企业Linux系统上,获得经济划算的、高可扩展的、高可用性的配置。与此同时,基于红帽企业Linux还能开发出各种安全可靠、易于扩展的大数据应用,有理由将数据进一步转化为商业价值。
·红帽企业虚拟化:红帽企业虚拟化(RHEV)是一款针对服务器和桌面虚拟化的完整虚拟化管理解决方案,是第一个成熟的、完全开源的企业虚拟化平台。RHEV较之专有虚拟化供应商,为寻求更佳总体拥有成本、更快投资回报率、迅速收支平衡和避免供应商锁定的企业提供了真正的策略虚拟化替代方案。企业虚拟化与存储的结合,能够使用户更加安全的访问由红帽存储管理的共享存储池,还能够为企业降低运营成本、提高可扩展性和可用性,以及更高的性能。
·红帽开放混合云:开放混合云是红帽的云计算产品策略,能够实现大数据工作负载在公有云和私有云之间的轻松迁移。云计算和大数据两者关系紧密,云计算为大数据的存储和处理提供了良好的平台,可以在短时间内调动众多资源处理大数据;大数据处理将更多的应用带到云上,也在推动云计算市场的发展。
·红帽JBoss中间件:红帽JBoss中间件是一款适用于面向服务架构(SOA)的开源平台,为创建和部署新的大数据应用提供强大技术支持,并能够与Hadoop、MongoDB等大数据技术进行互动和整合,帮助企业抓住大数据机遇,应对大数据带来的挑战。
红帽存储结合企业Linux、企业虚拟化、JBoss中间件和开放混合云组成完整的大数据生态系统,为用户提供灵活、安全的大数据解决方案,以满足企业现在和未来对大数据的需求。
总结
总的来说,红帽产品的最大特点就是“开源”,并将开源做到极致。开源是大数据的灵魂,凭借开源优势,红帽大数据解决方案发挥着巨大的潜力。未来,随着红帽在大数据领域的发展不断深入,以红帽存储为主的生态系统,将提供一站式的大数据解决方案。届时,红帽云计算和大数据产品策略将双管齐下、相辅相成,共同打造开源技术创新平台。