走出沙盒 Hadoop数据管理重要性提升

服务器 Hadoop 数据管理
在Web应用方面Hadoop已经证明了自己,但是迄今为止大多数的工作也仅仅归为POC的范畴。健壮的管理能力缺失是造成这一现象的主要原因,然而事情正在发生改变:在企业中,Hadoop有待于更进一步的融入运营工作流,以期带来更好的安全性和查询功能。

 在处理日益增长的非结构化和半结构化数据过程中,Hadoop文件系统及MapReduce框架已经成为出镜率最高的技术名词。但作为数据管理技术领域的新手,Hadoop要想获得更广泛的成功,成熟的数据管理软件工具是必不可少的。

在Web应用方面Hadoop已经证明了自己,但是迄今为止大多数的工作也仅仅归为POC的范畴。健壮的管理能力缺失是造成这一现象的主要原因,然而事情正在发生改变:在企业中,Hadoop有待于更进一步的融入运营工作流,以期带来更好的安全性和查询功能。

很显然,厂商对Hadoop数据管理工具的关注正在升温。最近来自于IBM和Teradata的公告中称,他们期待有方法可以利用开源Hadoop来满足主流企业的一般性运营需求。

事实上,有许多企业在沙盒(Sandbox)中运行Hadoop项目,让基于Java的Hadoop集群与网络分离并隔离在一个封闭空间内,只有少数人可以对其进行访问。为什么要这样做呢?原因就是他们无法保证系统中是否存在敏感数据,如果这些信息被泄露出去,那么公司可能会惹上大麻烦。

沙盒模式并不是新鲜事物,很多新技术都会经历这样一个“自我封闭”的阶段。父母在某种程度上会因为他们的孩子在沙盒中玩耍而感到安心,至少很多可能的意外会在沙盒中得以限制。这同样适用于需要部署新技术的数据管理者。

Hadoop做为一个暂存区

Teradata的市场副总裁Steve Woolidge向TechTarget记者介绍,Teradata Enterprise Accesse对于Hadoop软件推广的重点在于安全性的提升,工作负载管理以及SQL访问。这些功能需求为实现更好的Hadoop框架指明了道路。

Woolidge并不认同Hadoop是作为实验性技术而面向用户的观点,他认为Hadoop一种类似于数据预处理区的东西,可以将它看做是一个存储大量不同类型数据的暂存区。

Hadoop文件数据的优势之一就是公司不用对其进行转换就可以存储。但是下一步会更加复杂:Hadoop获得信息容易,但取出信息就困难许多。

Teradata的新工具包括Smart Loader for Hadoop,它可以为业务分析师提供Hadoop集群和负载工作,同时SQL-H软件可以用来查询Hadoop数据。对于终端用户,SQL-H使得大数据更便于管理。此外,在Hadoop上加一个SQL-H层意味着你可以对在Hadoop系统中可见的表实现的行级安全性。

不再轻率以待

据IBM软件集团的营销主管Bernie Spang说,许多公司已经度过了Hadoop的实验阶段,这意味着Hadoop管理能力正在更多的走向台前。Spang说:“现在他们正把Hadoop应用到企业问题中去,而人们不得不对一些细节进行处理。”

IBM近期推出了其PureData System的新版本,它可以用来优化Hadoop应用程序。这个一体化产品是为了简化管理工作流程,为Hadoop相关的工作提供必需的支持和安全性保障。

Spang表示,很多企业已经将Hadoop做为一种快速数据分片的工具。企业日益增加对这项技术的应用,但这并不意味着Hadoop系统已经真正成熟,相信更多的Hadoop项目还会处于沙盒阶段。

但是,虽然开源是Hadoop的一个主要卖点,但是行业内的一般经验是,企业软件管理工具更在意开源领域之外的东西。对于许多主流操作很可能会需要一些周边工具来实现,并且这些中的许多将会是商业工具。改进Hadoop数据管理会是今年需要密切关注的一个趋势。

责任编辑:路途 来源: TT中国
相关推荐

2024-06-07 06:37:34

2009-03-03 17:25:41

2013-12-17 13:36:31

微软Surface RT移动信息化

2009-03-24 09:05:54

资源管理IT管理广通信达

2024-04-28 11:40:52

2022-06-09 00:03:44

数据数据治理搜索

2015-08-24 13:46:17

2024-03-05 13:05:49

数据中心数字孪生

2021-10-12 14:02:08

财务风险数据风险数据泄露

2013-07-16 13:57:28

2023-11-29 14:52:38

2010-07-30 16:28:06

2009-12-25 15:00:48

WPF软件

2023-10-24 11:07:57

2010-05-04 07:47:22

2010-10-26 11:14:07

Oracle数据库备份

2015-06-02 13:10:55

2021-12-20 11:02:13

勒索软件攻击网络安全

2018-07-06 14:14:15

数据中心备份服务器

2020-11-08 13:38:34

网络日志网络安全漏洞
点赞
收藏

51CTO技术栈公众号