大数据是一项系统工程,包含数据采集、处理、存储、分析、呈现等多个环节。在大数据领域,数据存储和数据分析是最受人们关注的,参与的厂商也是最多的,相关的产品和解决方案也五花八门。但是,很多人可能忽视了一个必不可少的环节,即数据的清洗。如果数据是杂乱无章的、格式不统一、数据不具备一致性且不准确,那么数据的处理和分析就无从谈起。数据清洗就是对大数据进行预先处理,为其后的数据分析提供“粮食”,让巧妇不再难为无米之炊。
数据清洗——数据挖掘的一道难关
随着信息化建设不断走向深入,很多企业都积累了大量数据。但由于缺乏统一的规划,无论是存储方式还是数据标准都千差万别,这为数据分析带来了巨大挑战。目前,企业经常遇到的数据问题主要有以下几方面:首先,数据存储方式是多样化的,格式不统一;其次,数据质量低,数据标准不一致;最后,效率低,通用性差,虽然有些企业使用了一些专用的数据清洗工具,但是这些工具所能处理的数据格式有限,且与特定的数据库产品绑定,整体工作效率不高。
杂乱的数据
正因为如此,在进行大数据分析前,有必要对所有数据进行清洗,形成统一的标准,才能在数据分析工作中充分发挥数据的潜在价值。
数据清洗谁来做?
谁有能力做数据清洗呢?以Informatica为代表的一些软件厂商一直在做数据清洗和数据治理的工作。在今年宣布公司私有化后,Informatica也在实现转型,产品的平台化、云化和服务化正成为新的发展趋势。还有以赛凡信息科技(厦门)有限公司(以下简称赛凡)为代表的一类厂商,将存储与数据清洗相结合,通过一体化的方式,一站式支持数据迁移、数据同步、数据交换和数据整合,对结构化和非结构化数据进行清洗和整理,全面解决因数据杂乱无章给客户带来的困扰。能够实现上述功能的产品就是赛凡近期新推出的云梦数据仓。
赛凡是中国存储领域的后起之秀,也是存储技术自主创新的实践者和先锋。进入大数据时代,赛凡创新性地将存储与大数据进行融合,并携手合作伙伴,致力于成为“大数据时代的领跑者”。云梦数据仓就是赛凡布局大数据领域的一颗重要棋子。
云梦数据仓是什么?有哪些特别之处?
云梦数据仓架构图
云梦数据仓的技术优势可以归纳为以下几方面:支持各种主流数据库(Oracle、SQLServer、DB2、Mysql、Sybase、PostgreSql 等)的全量和增量数据抽取和装载,同时还支持TXT、CSV、Excel、XML文件、消息服务器、LDAP服务器、WebService 等数据的抽取和装载;具有丰富的数据转换清洗规则,内置近40种数据清洗转换规则,并可动态扩展;批量文件处理与文件同步,支持各种文件的批量读取,可自动识别新增和修改的文件,并能够在本地和远程服务器之间同步文件夹;支持多重协议访问,支持通过CIFS、NFS、FTP、WebDAV对云梦数据仓进行访问。
这是一款软硬件结合的一体化解决方案,符合当前融合的技术发展潮流。一方面,它采用高性能的硬件平台,比如两颗Intel 64bit Xeon 4核高性能处理器,对外接口采用4x10GbE高速接口,单台设备性能可达600MB/s;另一方面,它基于高性能的软件架构,采用基于流水线的多线程架构,支持数据分区处理和并行装载,可以充分发挥硬件性能。软硬件的结合也方便用户部署和使用,提高了数据清洗和处理的效率。
多线程分段读取相较于其他数据清洗工具性能提升十余倍
赛凡的云梦数据仓,以高安全、高可靠和高性能为特色,并且可以轻松实现扩展。为了更好地保障安全性,在硬件方面,云梦数据仓采用2U专用硬件平台,嵌入式系统架构保证了安全可靠;在软件功能方面,云梦数据仓具有断点续传机制,可提供基于角色的权限控制机制,并支持传输加密,同时还采用强大的底层RAID保护机制,支持文件级RAID 5/6/7,并且具有重要数据多重备份和读写快照保护功能。在可扩展性方面,云梦数据仓采用插件机制,基于OSGI整体架构,可以方便快速地接入新类型的数据源或定制复杂的业务逻辑转换组件或规则,同时提供API接口,支持第三方应用。云梦数据仓自带48TB存储空间,可扩展至792TB。
云梦数据仓是一个实现文本、图像、视音频等全媒体内容共享管理、模式识别和统一检索的一体化平台系统,可以降低部署成本,大幅度提升内容利用率,可以满足政府、金融、教育、医疗等行业用户的大数据处理需求。
分散数据归一
云梦数据仓有一些典型的应用场景。举例来说,云梦数据仓适用于分散数据归一,使用其数据清洗功能,可以轻松实现对结构化数据和非结构化数据的集中清洗,并存储到数据库中。云梦数据仓内嵌多种数据连接和装载通道,可实现对数据内容的识别和数据装载。另外,云梦数据仓还可以用于“脏数据”清洗、实现性能优化、数据定期清理、模式分享等。
结语
总之,通过采用云梦数据仓一体化解决方案,行业用户可以更加方便、快捷地完成海量数据的整合与清洗,为其后的数据分析、检索和分享提供格式统一、准确、全面、一致性强的数据,也为大数据应用提供良好的支撑。
扫码关注,了解更多赛凡云梦数据仓一体化解决方案信息