数果王劲:摆脱局限性 大数据时代就要做智能挖掘

原创
服务器
探索性数据分析分两个阶段,一个是探索性,一个是验证,我们传统的做法只是验证阶段,没有探索阶段。数果科技做的探索性分析是把数据分析基于这两个阶段做的,大数据分析要给予数据的原始数据发现出数据的规律,根据这个规律再去建模、验证,验证我们数据的准确性。这一块主要是弥补之前的数据挖掘分析的缺陷。

8月27日,WOT2016移动互联网技术峰会在北京粤财JW万豪酒店隆重召开。本次大会,将重点围绕应用架构、平台技术、性能优化、创新技术、VR技术、前端技术、APP技术、运维与安全、数据分析、直播技术等话题展开讨论。

[[170600]]

数果科技创始人 王劲

在峰会现场,我们非常荣幸的采访到了本次峰会的讲师:数果科技创始人王劲,共同探讨关于探索性数据分析技术的应用。

王劲先生是数果科技的联合创始人兼CEO。在此之前供职于酷狗音乐,主导建设了酷狗音乐大数据平台。今年5月创立数果科技,数果科技主要是解决大数据平台的快速挖掘与分析。

数果方案让大数据挖掘摆脱局限性

传统的数据分析挖掘,一般都是首先建立数据模型,把模型建立好之后,抽样一些数据,提取一些样本数据进行训练,这也是传统做法的局限性。原始数据有价值的信息可能会屏蔽掉,模型数量有限等问题都困扰着传统数据分析挖掘。

王劲在接受本站记者采访时表示:探索性数据分析分两个阶段,一个是探索性,另一个是验证,我们传统的做法只是验证阶段,没有探索阶段。数果科技做的探索性分析是把数据分析基于这两个阶段做的,大数据分析要给予原始数据发现出数据的规律,根据这个规律再去建模、验证数据的准确性。这方面主要是弥补之前数据挖掘分析的缺陷。

谈到探索性数据分析的意义,王劲认为,它可以在数据中发现更多的价值。传统的数据分析,只是通过已经设定好的一个框案、规则来进行分析;而探索性数据分析的优势在于没有限制,把局限性打开,你可以去任意的发挥,因为探索性更多的是基于不同维度的发现规律,不管用户有多少维度,都可以通过这些维度来进行挖掘。

大数据时代就要实现智能挖掘

在应用方面,数果的解决方案是面向全行业的。现在我们常见的数据挖掘,还是基于先建模的方式更多,这个探索性建设分析的理论60年代约翰杜克早就提出了。现在经历了大数据时代,因为数据的不规整,大数据更多的是集中在非结构、半结构化的数据,这些需要不断地通过这种方法去发现它潜在的价值,而不是说我们通过一个模型把它固化之后再挖掘已知的价值,通过新方式可以挖掘未知的价值。

实战方面,据王劲介绍:以电商客户为例,数果提供的解决方案更多的是基于行为预测,通过探索性分析预测他一些用户的流失,哪些用户可能会成为他的重点客户,主要是把这个维度扩得更大一点,而不是被局限住。

现在大家做数据挖掘分析的时候,更多数据分析是基于已有的模式,现有市面上行为分析产品只能做到流程转化,但基于数果的方案则可以做的更多,包括预测未来的客户预测、流失等等,整个细节都可以去发现。

探索性数据分析更多的是基于原始数据,因为在传统的方式里原始数据是可以做的,但是大数据时代做原始数据分析成本非常高,如何解决在海量的数据中快速的响应、基于大数据加速、多维分析、数据挖掘加速,这些都是数果平台可以实现的。

数据价值***,还需新技术去探索

谈到未来发展趋势,王劲表示:数果现在主要是做大数据的研发,因为大数据未来肯定是大的趋势,从各个层面都可以看到大家对大数据的意识越来越强烈了。从我自己实践经验来看,目前大数据发展到现在解决了海量数据存储问题,至于海量数据怎么快速的从中发现它的价值,快速的查询、挖掘,这个问题目前还没有一个完整的解决方案,包括现在的SPARK也是如此。SPARK只是针对迭代技术方式做的比较高效,但是非迭代就没有优势了,相比之下与硬件的交换成本还是很高的。

现在的数据量越来越大越来越多了,大家对数据的重视程度也越来越高,我们怎么能够快速的从海量数据当中找出有价值的数据,这将是未来更重要的发展方向。

责任编辑:云中子 来源: 51cto
相关推荐

2014-02-21 11:30:08

数据可视化大数据

2021-08-09 11:07:44

数据安全算法互联网

2023-01-10 10:11:50

GPU计算

2023-04-12 10:51:42

2022-12-30 08:26:43

基线预警局限性

2018-04-26 13:41:57

深度学习人工智能机器学习

2010-08-26 10:57:35

2022-06-16 12:51:48

工业机器人机器人

2023-06-16 10:18:22

人工智能商业

2021-04-20 08:31:13

Kubernetes局限性容器

2019-11-06 11:34:53

人工智能机器学习工具

2021-10-24 17:00:06

人工智能AI播音主持

2022-03-20 23:21:06

人工智能数学悖论工具

2023-11-21 13:59:43

2023-11-14 11:34:15

2017-10-09 19:12:52

AI深度学习局限性

2010-01-12 15:04:01

VB.NET异常处理

2010-08-06 11:04:11

RIP路由协议

2024-02-22 10:49:58

人工智能建筑行业AI

2017-07-25 11:22:06

点赞
收藏

51CTO技术栈公众号