像Google一样玩转大数据到底难不难?企业能从Google身上借鉴哪些经验?本文就将进行深入的讨论。
简单来说,Google处理大数据的方式可以总结为以下几点:
1、收集原始数据,捕捉每一个网站的内容,电子邮件或者Cookie,然后抽取出关键的信息
2、为这些信息创建复杂的关联索引以及与广告相关的索引
3、将索引和相应的内容存储在分布式的服务器上
4、当用户浏览网页进行搜索,或者查看电子邮件时,Google就会将用户的请求放到一个复杂的“翻译”过程中,然后几个索引条目就会相应地被定位
5、根据索引在服务器中进行数据检索,然后返回搜索结果或者相对应的广告
那么这两步的部署难度如何呢?非常简单,Hadoop解决方案在扩展性以及成本方面的表现都很好。那么是不是你就可以像Google那样从容应对大数据了呢?当然不是,因为你还要考虑关键的第2步与第4步。
那么第2步和第4步到底是怎样的?它们涉及到业务分析算法,这是相关的业务专家在数据、业务知识以及市场趋势基础上精心设计出来的算法,它是核心的竞争力。也就是说4V理论中的Value(价值)所在。
那么大数据项目为何会失败呢?那是因为目前许多大数据项目都只是提供了数据存储与数据查询的功能。它缺乏良好的业务分析解决方案来提升竞争力,这才是最关键的。然而要做到这一点,其中还有巨大的鸿沟需要跨越。事实上,目前的大数据项目基本上是IT专家的事,他们可以用C++或Java部署MapReduce功能,却不能实现***目标,为业务提供有价值的算法。
为了避免失败,企业必须使用面向业务专家的高级分析工具,这些工具不要求用户有技术背景,而且能够快速、直观、方便地将业务逻辑转化为业务算法。
是使用NoSQL还是SQL呢?根本没关系!它们是提供给IT人员的。那么什么才是业务专家的理想工具?从TCO(总拥有成本)来看,我更愿意选择轻量级的R语言和esProc Desktop,而不是把宝压在重量级的Teradata Aster或者SAP Visual Intelligence上。特别是esProc,它是一款业务计算的桌面工具,它的语法非常容易理解和使用,不需要太强的技术背景。脚本会自动化对齐,用户可以对每一步的结果有一个很直观的很清晰的了解,并根据业务逻辑进行相应的计算。