必知:企业IT大数据问题的分析及现状

服务器
目前大数据的处理平台以Hadoop为主,都是自建Hadoop集群或使用AmazonElasticMapReduce服务,而Google的BigQuery由于种种限制推广得并不理想。微软的Cosmos/Dryad/Scope由于体系仅限于内部使用,也不能成为大数据的平台,同时微软对外也支持hostingHadoop。

 之前对于大数据只是一个概念,而今已经有很多企业和厂商在开始行动,但目前需要做的是如何迎接大数据的到来,如果你接不住大数据那么你在未来的企业市场将会被淘汰。文件(非结构化数据)本身的大小在发生变化,从600MB的RMVB到了30GB的蓝光1080P视频,企业数据量增加,造成的数据库庞大。这无疑是迫使企业进入大数据时代的原因之一。

我们知道大数据的4v理论,数量(Volume)、多样性(Variety)、速度(Velocity)和真实性(Veracity),为我们制定大数据的策略提供了很好的方向。但同时我们在处理大数据的时候还是面临着很多问题,就目前大数据处理的现状来看,基本上处于以下几种状态。

大数据处理平台以Hadoop为主

目前大数据的处理平台以Hadoop为主,都是自建Hadoop集群或使用AmazonElasticMapReduce服务,而Google的BigQuery由于种种限制推广得并不理想。微软的Cosmos/Dryad/Scope由于体系仅限于内部使用,也不能成为大数据的平台,同时微软对外也支持hostingHadoop。

Hadoop尚难成为公共云服务

为什么说Hadoop很难成为公共云服务呢,原因有以下几个方面,第一Hadoop的安全体系局限在企业内网,缺乏多租户的支持。第二直接暴露HDFS文件系统,MapReduce和Hive很难做到多用户数据安全。第三数据文件格式过于复杂多样,维护成本高,保持数据兼容比较困难。

大数据处理系统的技术门槛很高,从自备发电机到公共电网还有很长的路要走。而市场则需要安全性、可用性、数据正确性都有保障,并且功能完整的一体化大数据处理服务。

大数据处理技术复杂

大数据的处理技术纷繁复杂,仍然处于产业变革早期的战国时代。由于传统的OLAP和数仓的延续性,HiveSQL有很大市场,但Hive的数据正确性和Bug仍然比较多。而HadoopMapReduce又过于复杂灵活,写出高效Job比较困难。Pig、FlumeJava等分布式编程模型技术的门槛较高,所以推广起来也比较困难。在数据挖掘和图算法领域虽然涌现出了Mahout、Hama、GoldenOrb等大量开源平台,但都不够成熟。至于基于Hadoop的工作流系统Oozie和数据传输系统Sqoop都需要开发人员单独部署。都是各有利弊,还没有一个很好的完美的解决方案。

责任编辑:路途 来源: 新华网
相关推荐

2022-08-19 10:31:32

Kafka大数据

2020-12-31 14:14:35

大数据大数据应用

2013-01-09 09:57:34

大数据分析大数据Actuate

2016-11-07 12:00:08

大数据产业大数据

2021-06-09 11:06:00

数据分析Excel

2019-01-31 10:53:53

企业数据迁移云端

2024-01-09 13:58:22

PandasPython数据分析

2018-12-07 14:59:37

2019-04-09 20:55:30

2019-11-06 10:56:59

Python数据分析TGI

2015-09-15 09:46:37

大数据专利技术

2015-06-15 12:58:39

大数据大数据查询

2021-03-11 15:35:40

大数据数据分析

2019-10-30 15:08:09

大数据Hadoop数据中心

2018-12-11 13:46:54

2020-12-22 14:48:38

大数据大数据应用大数据分析

2009-04-14 08:46:35

2017-12-17 22:16:58

2018-03-28 14:33:33

数据分析师工具Spark

2010-06-21 14:13:49

数据安全信息安全
点赞
收藏

51CTO技术栈公众号