说起Spark,熟悉大数据架构的人一定不会陌生,它已是继Hadoop之后最活跃的开源项目之一。作为发源于美国加州大学伯克利分校AMPLab的集群计算平台,Spark立足于内存计算,并以多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算形式得到了行业的肯定。作为国内IT行业领军厂商,浪潮早在2012年就推出了采用Hadoop+Spark架构的大数据一体机,如今这款产品已经应用于金融、电信、公安、交通、卫生等各个行业领域,成为用户大数据分析处理平台的理想之选。
Hadoop+Spark的数据架构模式
据了解,云海大数据一体机就是采用了业内主流的Hadoop+Spark的架构形式,搭建了国内外领先的大数据分析平台CloudCanyon,通过Spark计算框架消除了传统Map/Reduce计算框架的弊病,实现了高效的内存计算。Hadoop经过多年的发展,大家对其性能已经是耳熟能详;但是对于Spark,许许多人还觉得有些陌生。
其实在架构上Spark的优势更为明显——Spark是一个灵活的计算框架,适合做批处理、工作流、交互式分析、迭代式机器学习、流处理等不同类型的应用,因此Spark可以成为一个用途广泛的计算引擎,并在未来取代Map/Reduce的地位。与此同时,Spark还可以与Hadoop生态系统的很多组件互操作,可以运作在新一代资源管理框架YARN上,它还可以读取已有的存放在Hadoop上的数据,这是个非常大的优势。
经过复杂的系统调优和的改进,浪潮云海大数据一体机具有高性能、稳定性好、功能丰富、易管理等特征,采用不同的数据处理的架构来提供对不同行业应用的支撑。通过新型的数据处理架构,实现了计算随数据分布的数据本地化,保证了业务的连续性,即使三到四千个计算单元重载节点情况下,还能够实现相对比较好的扩展性。
浪潮云海大数据一体机的性能优势
Spark优化后性能可比原生快数倍
从技术角度来说,浪潮云海大数据一体机支持高性能Apache Spark作为缺省执行引擎,可比原生的Hadoop Map/Reduce快;其次,通过建立独立与Spark的分布式列存缓存层,可以有效防止GC的影响,消除Spark的性能波动,同时在列式缓存上实现索引机制,进一步提高了执行性能;再次,在SQL执行计划优化方面,实现了基于代价的优化器(Cost based optimizer)以及多种优化策略,性能可比原生Spark快数倍;***通过全新的方法解决数据倾斜或者数据量过大的问题,使得处理超大数据量时也游刃有余。
3大语法实现SQL支持
浪潮云海大数据一体机支持SQL99语法及PL/SQL过程语言扩展,并且可以自动识别HiveQL、SQL99和PL/SQL语法,在保持跟Hive兼容的同时提供更强大的SQL支持。由于现有的数据仓库大都基于SQL99,而且国内客户大量使用PL/SQL,因此浪潮云海大数据一体机可以支持复杂的数据仓库类的分析应用,也使得原有数据库系统迁移到Hadoop更为容易。
基于R的数据挖掘和机器学习
浪潮云海大数据一体机包含了专业用于数据挖掘的R语言执行引擎,并且扩展了R语言,支持多种分布式数据挖掘算法,包括统计算法和机器学习算法;也支持在R中调用SQL语句,通过Spark访问分布式内存数据。这些功能使得用户可以真正的在全量数据上进行机器学习或数据挖掘,而再也不用使用采样的方法,精准度得到很大提高。
数据处理性价比提升10倍
浪潮云海大数据一体机支持混合存储体系(内存/闪存/磁盘),分布式列存储可以存放在速度较快的闪存SSD上或者更快的内存中。经过实际测试发现,大数据一体机中采用SSD替代大容量昂贵的内存作为缓存,性能没有明显的下降,因此可以用同样的价格买到容量大10倍的SSD作为缓存,提供了极高的数据处理性价比。
浪潮云海大数据一体机集成了计算单元、存储单元、通讯单元、管理单元等核心模块,能够覆盖数据的存储、处理、展现等所有技术环节。正如浪潮集团高级副总裁王恩东所描述的那样:“云海大数据一体机正是顺应时代要求推出的,采用新型体系架构的软件一体化的产品。通过浪潮集团一体化的产品、服务,帮助用户快速实现对大数据的应用与开发,同时我们也希望以此为起点,增强产业链的应用,共同挖掘并充分释放中国大数据的潜能,将中国的大数据产业做大做强。”