打造Hadoop发行版精品 星环TDH3.4新版概述

服务器 Hadoop
在和开源的Hive执行效率相比中,Inceptor 3.4能够带来10x~100x的性能提升。下图是TPC-DS的部分query在Inceptor和CDH Hive的性能提升倍数,其中最大的提升倍数竟可达到123倍。需要说明的是,这里用的Query跟Impala运行的相同。

【2014年10月,上海】近日,星环信息科技(上海)有限公司(以下简称星环科技)在纽约召开的Strata Conference + HadoopWorld大会上发布了Transwarp Data Hub 3.4新版本Hadoop发行版软件。

今年的Strata Conference是近年来规模***的大数据盛会,有5500多人参加这次大会,130多家厂商参展,门票在开会前就售罄。这么大规模的盛会标志着hadoop已经真正成为大数据处理技术的主流地位。这也是星环***在美国-大数据的大本营-发布大数据***产品。

Transwarp Data Hub (简称TDH) 3.4新版本大幅增强了Inceptor交互式分析引擎、Hyperbase实时数据库和Stream流计算引擎的功能和性能。

Inceptor 3.4 -更强、更快、更稳定

更完整的SQL支持:

• Inceptor 3.4比美国友商提供了更全的SQL支持,继支持SQL’99后,开始兼容SQL2003语法。***版本已经包括了对常用数据类型DECIMAL,NUMERIC,VARCHAR的支持,支持WITH-AS定义子表, 以及支持在任意FROM/WHERE/SELECT/HAVING语句中嵌套子查询和相关子查询(Correlated Sub-query),支持窗口聚合函数, CUBE, ROLLUP等功能。

• Inceptor3.4支持SQL2003语法额外要求的功能,包括支持SQL2003要求的各种predicate(BETWEEN, LIKE, EXISTS等),并且支持在predicate中嵌套子查询(sub-query in comparison predicate, sub-query in IN predicates, correlated sub-query,etc),支持在子查询中嵌套table operator等。

• 支持部分PL/SQL语法,包括变量、函数、控制流、部分存储过程。

支持SQL的完整程度已经远超过美国友商的同类产品,包括Cloudera在StrataConference上发布的Impala2.0的SQL支持程度。

更快的性能:

Inceptor 3.4实现了更多的优化规则,并且自己研发了基于代价的优化器,性能比之前的版本有显著提高。在Cloudera最近公布的TPC-DS性能数据中,Impala 1.4比所有的其他产品(包括SparkSQL)快5倍以上。作为回应,在Strata Conference上,星环公布的TPC-DS的性能评测结果以及Inceptor 3.4与Impala 1.4的对比。

下图是所有TPC-DS测试集合的性能对比图. 图中纵坐标小于1表示测试案例的性能Impala超过Inceptor,而大于1表示Inceptor有更好的性能表现。对于Impala不能支持的SQL,我们就标记这个性能比为100。

从这个图中可以看到,在Impala目前支持的19个SQL中,有11个SQL在Inceptor上比Impala表现的更好, 只有8个SQL的Impala表现超过Inceptor。

 

 

另外,在和开源的Hive执行效率相比中,Inceptor 3.4能够带来10x~100x的性能提升。下图是TPC-DS的部分query在Inceptor和CDH Hive的性能提升倍数,其中***的提升倍数竟可达到123倍。需要说明的是,这里用的Query跟Impala运行的相同。

 

 

更多详细的性能比较以及TPC-DS的测试配置和细节可以参考星环发布的性能白皮书。

更全的机器学习算法支持:

• Inceptor 3.4新版本提供了更多的统计和机器学习算法,在MLlib已有的算法(CF, SVM等)上也做了稳定性和精度的改进。下表是TDH3.4支持的算法列表:

 

 

其中一些算法已经成功运用在电商和网络电视的推荐系统中。

• Inceptor3.4提供了更完善的R语言支持,现在使用R语言进行数据挖掘的用户,可以在R语言中执行SQL语句,并把SQL的结果传给机器学习算法。多个机器学习算法的结果也可以继续传递给后续算法,可以组成一个pipeline,方便用户对数据进行多轮分析和挖掘。

更稳定可靠的Spark计算引擎,可处理GB到PB级别的大数据量:

• Inceptor 3.4的重大改进是提高了Spark引擎处理大数据的能力以及性能的稳定性,通过设计全新的内存换出机制并改造多个Spark操作原语,可以在大数据量上稳定地运行复杂的SQL,并且在大数据量上的运行性能全面超越Hive和Map/Reduce。

• 星环已经实现了大数据量复杂SQL算法的高性能和稳定性,并且已经成功替换Oracle/DB2和小型机的组合,运用在上海移动和广东移动的复杂经营分析场合。

Hyperbase3.4 - 更全的SQL支持和索引支持

Hyperbase 3.4的新功能主要包括了对Inceptor SQL的更好支持上,Hyperbase从3.4开始同步支持Inceptor的SQL语法,可通过SQL对Hyperbase进行单条记录的增删查改。

新版本提供了星环科技开发的一个新的专有ODBC驱动程序(windows版本),可以通过ETL 工具支持从现有关系数据库实时同步更新数据到Hyperbase,这个功能对实时数据仓库或者ODS来说是必不可少的,目前美国友商的相应Hadoop产品还只能支持批处理,不能和关系数据库进行实时同步。

Hyperbase 3.4提供了更好的索引支持,并且Inceptor SQL引擎可以充分利用Hyperbase的内建索引来加快查询速度。在有索引的情况下,查询的延时降到了百毫秒级别。为了支持更复杂的索引,Hyperbase 3.4充分利用了新设计的代价优化器,可以自动根据访问索引的代价选择***索引。

Stream 3.4 - 更快、更稳定、更安全

Stream 3.4流处理引擎进一步提高了读取Kafka分布式队列中数据的吞吐性能,并且为Kafka提供了安全认证和访问控制功能。Kafka的安全控制功能目前在开源版本或者友商的发行版中都不具备,也侧面说明了友商的Kafka或者流处理引擎目前没有实际部署。对跨地域分级部署的流处理集群而言,缺乏安全机制是致命弱点,特别是跟公共安全相关的应用,将导致系统由于安全原因无法实施。此外,Transwarp Stream 的稳定性也得到验证,最近在某省的全省交通指挥监控系统中上线并且能够7x24运行,端到端延时控制在了2秒以内,是目前国内在线运行的大规模流处理集群的少见案例。

总结

此次星环科技在美国纽约发布的新版本,在多项核心功能和性能指标中已经领先于美国友商,也吸引了多家金融客户的关注。

责任编辑:路途 来源: 企业网D1net
相关推荐

2014-11-28 20:05:13

星环Hadoop发行版

2014-11-05 10:41:50

Hadoop星环TPC-DS

2014-11-12 12:34:56

星环TDH大数据

2021-11-17 15:36:04

鸿蒙HarmonyOS应用

2023-07-19 15:57:25

blendOSLinux

2011-02-16 16:23:09

Debian发行版

2015-07-13 13:08:24

LFSLinux

2021-09-06 11:29:59

LinuxCutefishOS操作系统

2009-04-10 14:32:13

LinuxSlax 6.1.0发行版

2018-09-11 13:15:40

Hadoop大数据发行版

2009-04-20 20:27:05

LinuxFreeNAS发行版

2019-08-26 09:39:53

Hadoop发行版大数据

2014-11-05 10:07:34

优化Hadoop发行版

2019-08-26 09:20:43

Hadoop大数据数据库

2016-12-26 09:49:28

Linux发行版

2014-05-14 16:02:51

OpenStack测试红帽

2010-03-18 14:40:34

ubuntu DIY

2009-02-20 11:14:33

LinuxArch 2009.02

2009-03-20 11:49:02

Scientific

2009-04-30 17:25:48

发行版MandrivaLinux 2009.
点赞
收藏

51CTO技术栈公众号