Cloudera和Spark的年度回顾

服务器 Spark
Cloudera 作为Apache Hadoop的最快速、最便捷、最安全的数据管理和分析平台,以及最新开源技术的提供者,于一个月前宣布增加了对Spark SQL和MLiB与Cloudera Enterprise 5.5 和 CDH 5.5集成的支持。

Cloudera 作为Apache Hadoop的最快速、最便捷、最安全的数据管理和分析平台,以及***开源技术的提供者,于一个月前宣布增加了对Spark SQL和MLiB与Cloudera Enterprise 5.5 和 CDH 5.5集成的支持。在过去的一年中,两者已经在可用性和交互操作性上取得重大成绩。我们来回顾一下2015这一年Cloudera和Spark在用户生产环境中取得的进展。

由于研发的相对简单性和灵活的数据处理,Spark在开源社区和客户用例中的受欢迎程度迅速提升。它是Apache软件基金会中最活跃的项目,拥有来自于超过200家公司的800多名开发者。Cloudera团队的Spark代码提交者专注于提升Spark的企业级能力,在Hadoop的框架内集成Spark以满足客户需求和进一步的生产适用。

Hadoop的创始人,Cloudera的***架构师Doug Cutting说:“开发者对Spark的拥抱以及Cloudera在过去一年中在推进主流应用方面所作出的努力,是非凡的。我们已经有了大量的客户用Hadoop运作Spark,我们已经在深化Spark的商业能力方面取得巨大进步,使Hadoop客户在不同行业和用例中进行部署。有了Spark SQL和MLib作为Cloudera平台的补充,以及“统一平台”这一清晰的路线图,Spark应用将会随着批处理、流文件以及机器学习等用例而快速增长”。

在过去的一年,Cloudera针对多种数据处理的用例不断在完善Spark,包括端对端物联网应用、简化批处理以及原生机器学习等。由于越来越多的用户想要利用IoT和实时流数据,他们需要一个企业级的流式处理引擎来支持他们的应用程序。

为了应对这个问题,Cloudera***了Spark Streaming弹性方面的研发,确保数据的零丢失,并将其提升至生产标准。这一关键的改进,以及平台内与Apache Kafka的集成,已经使Cloudera的客户能够在一个统一的平台上建立完全的IoT应用程序。这对于Spark Streaming的应用有深远的影响。

为了推动更简化、更强大的批处理,并帮助Spark巩固其在Hadoop标准执行引擎的地位,Cloudera还发布了Apche Hive-on-Spark的测试版。Hive作为ETL开发的***工具,其与Spark处理引擎的集成,标志着支持下一代数据集成,是Spark作为MapReduce后继者的重要里程碑。

继***Cloudera 5.5的发布,Cloudera已经添加了Spark MLib - 拓宽了Spark的易用性,和Hadoop框架下的机器学习应用程序的性能表现;此外,Cloudera添加了Spark SQL – 允许将SQL无缝嵌入Spark应用程序,为开发者和数据科学家扩展了使用Spark的能力。

这一发布也包括了对Spark SQL的查询引擎的改进(Project Tungsten的一部分),在效率和速度上都取得了显著提升。为了确保进一步的功能性,与Hive及其元存储的集成保证了Hadoop平台上Spark SQL数据模式的完全互操作性 – 无论是结合Hive的ETL研发,还是结合Spark SQL的应用研发,或者是使用Impala的交互式商业智能,确保正确的用户通过正确的工具都可以在其工作上得到无缝体验。

用户的广泛应用

把Spark包含在Hadoop中,Cloudera对此的支持比其他厂商更有经验,也拥有更多的客户在Hadoop上运行Spark,这些客户包括当今***的多租户Spark集群,包括超过800节点的部署。

已经有超过170个客户在各种行业中使用Spark,包括金融、医疗卫生、零售和保险。Cloudera帮助客户使用了大量的新用例,包括:

l Cox Automotive:为汽车经销商和买家提供产品和服务的领先供应商,使用Spark流数据使其对广告宣传的洞察分析从每小时改进为实时分析。

l PRGX:***的应付账款周转审计服务供应商,彰显了Spark灵活的高性能数据处理,带来了相比于传统系统9-10倍的性能提升。

l 某在线零售商:使用Spark减少了30%的数据处理时间,并且利用实时趋势来进行更多的互动

l Allstate:美国***的保险公司之一,使用Cloudera和Apache Spark来处理超过80年的数据,建立高精度定价模型。

l RelayHealth:医疗健康技术解决方案的提供者和McKesson的子公司,为医疗提供者接收支付、改进现金流,建立可预测的模型。该公司处理200,000名医生、2,000家医院和1,900名健康计划用户的医疗支付交易。

l Barclays:跨国银行和金融服务公司,建立了一个洞察引擎以安全地分析之前多种交易数据,将相关洞察以简洁的可摘要方式交付给Barclays的客户。

此外,相关Spark的Cloudera 加速计划已经推动了数十个强劲的Spark应用,以及与领先第三方工具的集成,进一步扩展了用户对Spark的使用能力。关键合作伙伴包括Datameer, Informatica, Oracle, Paxata, Pentaho, Platfora, StreamSets, Syncsort, 和Talend。

 

关于Cloudera

Cloudera是Apache Hadoop软件、服务和培训的领先厂商。各行各业的公司都在运行Cloudera,包括财富500强超过65%的公司,行业覆盖技术、金融、电信、零售、能源、医疗和新媒体。

CDH (Cloudera的Hadoop发行版) 提供强大的新型数据平台,可使企业的数据开启从未有过的洞见,不论是结构化还是非结构化数据,都能随思而动。使用CDH管理大数据的机构远远超过其它任何Hadoop发行版的总和。

Cloudera的发行版是由Hadoop项目最受尊敬的团队来开发支持的,包括Doug Cutting,Hadoop项目的发明人,同时也是Apache软件基金会的主席。还包括主要开源项目Flume,Oozie,Whirr,Crunch和Big Top等项目的创始人。与Hadoop栈相关的技术问题会分配给各个发行版厂商,但70%技术问题都是由Cloudera代码提交者解决的。

随着Hadoop的发展,Cloudera致力于保持CDH***的开源,同时让Cloudera的企业版本成为最全面最适于企业的方案。Cloudera自2009年起就是Apache软件基金会的赞助者,为持续改进用户的大数据体验而制定了雄心勃勃的创新路线图。由精端的Cloudera Manager管理软件,BDR和Navigator安全工具,以及Cloudera的支持团队保驾护航,CDH提供***的稳定性、集成性和易用性。

Cloudera为使客户具备更好的竞争优势,随后又推出了Cloudera Impala和Search。Impala是交互式分析工具,驱动实时SQL查询,可以做到比MapReduce或Hive快90倍。Search是中立语言搜索引擎,可以让任何人快速找到Hadoop中相关数据,可以实时地解决关键业务问题。

Cloudera提供业界***质量的Hadoop技术支持和服务。没有人比Cloudera更懂Hadoop栈,没有人比Cloudera架构师有更多部署、写文档、配置、测试大规模Hadoop集群的经验。他们在客户现场提供实践支持,设计、原型设计并优化整个数据管道包括数据摄取、信息架构、数据处理、高级分析,以及数据服务。

责任编辑:老门
相关推荐

2014-04-09 10:55:55

Cloudera\Sp

2024-01-29 08:09:21

ApacheLTS版本

2009-06-25 13:03:14

Eclipse年度版

2012-11-09 09:27:29

GPU架构AMDNVIDIA

2016-06-16 09:56:17

Cloudera

2010-01-05 11:08:28

2020-12-31 17:37:39

APT攻击恶意软件网络攻击

2021-02-10 11:02:25

邮件安全网络钓鱼电子邮件

2024-01-09 09:00:00

人工智能技术事件

2022-05-31 11:08:33

技术盛会

2014-02-14 16:06:05

ImpalaCloudera

2013-11-01 09:25:19

大数据HadoopSpark

2017-12-19 22:43:14

2021-07-06 13:31:25

Cloudera数据管理数据分析

2014-01-09 14:07:46

Firefox OS操作系统

2010-01-15 21:47:39

2010-01-14 20:49:08

2014-01-07 17:36:37

Impala

2011-12-19 09:13:45

Javaeclipse

2022-01-11 19:36:06

移动应用安全数据泄露漏洞
点赞
收藏

51CTO技术栈公众号