专家分析:数据中心数据质量管理方法

服务器 数据中心 服务器运维
调查显示,信息的价值平均为企业价值的37%,这也让越来越多的企业更加重视数据中心的建设。但有许多因素会导致这些“资产”贬值,比如数据的冗余和重复导致信息的不可识别、不可信,信息时效性不强,精确度不够。

数据是企业数据中心的重要资产,获取并维护高质量数据,对高效的IT和业务运营至关重要。面对复杂度不断增加的业务数据,如何才能全面保证数据质量?可以借助完备的Informatica数据质量平台,无论何时何地,您都可以在整个企业内访问,甄别、清洗、集成、交付可信的数据,并在***时间找出并修正藏匿于任意位置、令您的公司动辄花费上百万的数据质量问题。

 
Informatica的数据管理目标
调查显示,信息的价值平均为企业价值的37%,这也让越来越多的企业更加重视数据中心的建设。但有许多因素会导致这些“资产”贬值,比如数据的冗余和重复导致信息的不可识别、不可信,信息时效性不强,精确度不够;结构或非结构数据使整合有困难;人员变动引发的影响;数据标准不统一,相关规范不完善造成对数据理解的不充分等等。
 
为了充分实现数据资产的业务价值,您需要一个数据集成平台。Informatica既可以在数据架构层面提供信息传递、B2B数据交换、企业数据集成等一系列的基础架构解决方案,同时也可为行业提供数据质量管理、主数据管理和复杂事件处理等方案,来支撑数据中心实现可信、交互、权威的信息资产管理,达成企业的业务目标,这也是信息中心建设的一个重点。
 
数据质量管理的整体框架
数据质量管理在数据中心建设中是一个完整的生态链。数据质量会受到供应商、生产员工、工艺流程以及内部客户和外部一些系统的影响,同时,从应用和软件角度方面讲,数据提供者、软件开发集成、质量管控手段等也都会影响到企业数据质量的整体状况。从数据质量整体框架和方法论上讲,首先我们要了解数据现状、确定目标,然后要清楚用什么人,通过怎样的流程,采用什么样的技术来支撑和达成目标,所以,数据质量管理中,人、流程、技术三方面缺一不可。
 
要实现数据质量提升,还必须要做到指标的可量化,通过量化指标来实现质量可控。从技术层面讲,要从以下六个角度去考量数据质量,也称为数据质量的矩阵,包括:完备性、符合性、一致性、准确性、唯一性以及完整性。
 
构建数据质量处理流程
数据质量处理的流程是怎样的呢?我们把数据质量的处理分为两大部分:一是面向数据质量的分析过程,二是针对分析结果进行增强的过程。先要识别和量化数据质量,然后定义数据质量和目标,接下来就要交给相关部门设计质量提升的流程,其后就是实现质量提升的流程,并交付高质量数据给业务人员使用。同时,在整个环境中,还需要有相关的一些监控和对比来评估是否达成了目标,决定是否需要进行新一轮的数据质量提升。这是一个周而复始、螺旋上升的过程。

通过Informatica构建数据质量管理主要分为四大部分。首先是Analyze andProfiling,通过对现有数据的详细分析、描绘,来确定怎样进行处理和标准化;第二是Standardise\Cleanse,标准化和清洗更容易让计算机识别,比如数据可以通过什么样的格式进行限制和约束,那些信息可以通过数据质点或者参考数据进行相关的标准化;第三是Match,标准化后要进行相关的数据匹配,解决数据重复性问题,保证数据的唯一性;第四是Consolidate,将重复的数据进行合并,***运用到不同的系统当中。需要注意的是,在整个过程中我们都需要进行相关的监控。
 
现在,很多企业的数据中心,不仅仅只是一个最单纯的面向数据仓库的数据存储中心,而是既能支持业务运营,又支持系统分析,还可进行系统间的整合。在数据中心建设中,数据质量需要从数据源端就开始进行治理,包括PowerCenter、Data Quality、MDM Hub、Informatica 9在内的Informatica的数据质量工具,可以将所有的业务逻辑和规则变成相关的一些服务,由各个业务前端、各个业务处理过程中,对数据处理服务进行调用,进行相关的数据校验验和数据清洗,保证数据产生过程中的数据质量,减少事后数据处理的难度和投入。
 
总的来说,数据质量管理是一个综合的治理过程,不能通过简单的技术手段得意解决,需要从企业的高度加以重视,才能为数据中心建设提供高质量的数据保证。
责任编辑:马沛 来源: 51CTO.com
相关推荐

2015-06-04 10:19:33

数据中心

2014-11-10 09:51:18

数据中心ITIL

2021-10-18 10:43:59

数据数据中心DCIM

2012-01-06 14:10:42

数据质量管理大数据数据管理

2023-10-22 11:47:37

大数据质量管理

2010-12-10 10:38:33

数据中心

2017-12-26 14:59:08

数据中心数据流动数据

2013-01-21 08:47:14

数据中心能源系统模式

2013-09-05 10:14:30

数据中心测试

2015-10-29 09:35:50

数据中心管理

2010-06-28 13:48:32

中心数据中心建设

2017-08-31 10:20:21

2021-09-28 10:35:02

华为超融合网络

2022-08-17 10:52:47

数据中心管理软件

2023-03-29 11:39:10

数据中心服务器

2015-12-01 09:50:46

数据中心API

2017-11-27 10:41:57

数据中心能力专家

2015-11-03 11:29:56

2012-08-08 11:34:14

数据中心IT服务

2010-06-18 10:51:08

数据中心管理
点赞
收藏

51CTO技术栈公众号