8月27日,WOT2016移动互联网技术峰会在北京粤财JW万豪酒店隆重召开。本次大会,将重点围绕应用架构、平台技术、性能优化、创新技术、VR技术、前端技术、APP技术、运维与安全、数据分析、直播技术等话题展开讨论。
数果科技创始人 王劲
在峰会现场,我们非常荣幸的采访到了本次峰会的讲师:数果科技创始人王劲,共同探讨关于探索性数据分析技术的应用。
王劲先生是数果科技的联合创始人兼CEO。在此之前供职于酷狗音乐,主导建设了酷狗音乐大数据平台。今年5月创立数果科技,数果科技主要是解决大数据平台的快速挖掘与分析。
数果方案让大数据挖掘摆脱局限性
传统的数据分析挖掘,一般都是首先建立数据模型,把模型建立好之后,抽样一些数据,提取一些样本数据进行训练,这也是传统做法的局限性。原始数据有价值的信息可能会屏蔽掉,模型数量有限等问题都困扰着传统数据分析挖掘。
王劲在接受本站记者采访时表示:探索性数据分析分两个阶段,一个是探索性,另一个是验证,我们传统的做法只是验证阶段,没有探索阶段。数果科技做的探索性分析是把数据分析基于这两个阶段做的,大数据分析要给予原始数据发现出数据的规律,根据这个规律再去建模、验证数据的准确性。这方面主要是弥补之前数据挖掘分析的缺陷。
谈到探索性数据分析的意义,王劲认为,它可以在数据中发现更多的价值。传统的数据分析,只是通过已经设定好的一个框案、规则来进行分析;而探索性数据分析的优势在于没有限制,把局限性打开,你可以去任意的发挥,因为探索性更多的是基于不同维度的发现规律,不管用户有多少维度,都可以通过这些维度来进行挖掘。
大数据时代就要实现智能挖掘
在应用方面,数果的解决方案是面向全行业的。现在我们常见的数据挖掘,还是基于先建模的方式更多,这个探索性建设分析的理论60年代约翰杜克早就提出了。现在经历了大数据时代,因为数据的不规整,大数据更多的是集中在非结构、半结构化的数据,这些需要不断地通过这种方法去发现它潜在的价值,而不是说我们通过一个模型把它固化之后再挖掘已知的价值,通过新方式可以挖掘未知的价值。
实战方面,据王劲介绍:以电商客户为例,数果提供的解决方案更多的是基于行为预测,通过探索性分析预测他一些用户的流失,哪些用户可能会成为他的重点客户,主要是把这个维度扩得更大一点,而不是被局限住。
现在大家做数据挖掘分析的时候,更多数据分析是基于已有的模式,现有市面上行为分析产品只能做到流程转化,但基于数果的方案则可以做的更多,包括预测未来的客户预测、流失等等,整个细节都可以去发现。
探索性数据分析更多的是基于原始数据,因为在传统的方式里原始数据是可以做的,但是大数据时代做原始数据分析成本非常高,如何解决在海量的数据中快速的响应、基于大数据加速、多维分析、数据挖掘加速,这些都是数果平台可以实现的。
数据价值***,还需新技术去探索
谈到未来发展趋势,王劲表示:数果现在主要是做大数据的研发,因为大数据未来肯定是大的趋势,从各个层面都可以看到大家对大数据的意识越来越强烈了。从我自己实践经验来看,目前大数据发展到现在解决了海量数据存储问题,至于海量数据怎么快速的从中发现它的价值,快速的查询、挖掘,这个问题目前还没有一个完整的解决方案,包括现在的SPARK也是如此。SPARK只是针对迭代技术方式做的比较高效,但是非迭代就没有优势了,相比之下与硬件的交换成本还是很高的。
现在的数据量越来越大越来越多了,大家对数据的重视程度也越来越高,我们怎么能够快速的从海量数据当中找出有价值的数据,这将是未来更重要的发展方向。